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EN2YMATIQUE EN COMPORTANT ET FRAGMENTS D'ADN CODANT POUR CES F'OLYPEPTIDES 

fe^La presente invention concerne notamment un poly- 
pSptide comprenant un domaine coh6sine de type II, ca- 
racterise en ce qu*il est capable de se fixer a un domaine 
dockerine de type II, d'une prot6ine de charpente, d'un 
complexe enzymatique. tfune bacterle cellulolytique. no- 
tamment de ta prot6ine CipA de Clostridium themnoceilum. 

La presente invention fournit egalement une nouvelle 
prot6ine SdbA ("Scaffoldin dockenn binding protein") de 
Clostridium themnoceilum. 

La pr6seme Invention fournit une composition enzymati- 
que comprenant plusieurs enzymes rdunis par I'lntemie- 
diaire de molecules d'association comprenant des domai- 
nes cohesine et des domaines dockerine. 
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POLYPEPTIDE COMPORTANT UN NOUVEAU DOMAINE COHESINE DE 
TYPE II, COMPOSITION ENZYMATICiUE EN COMPORTANT ET 
FRAGMENTS D'ADN CODANT POUR CES POLYPEPTIDES 

5 La presente invention concerne des domaines proteiques 

susceptibles d'interagir de facon non covalenie ei permettani d'agencer en 
complexes multiprotdiques d6finis des polypeptides d'interei biochimique 
ou biologique pour les faire agir ensemble simuitandment ou de mani^re 
s6quentielle afin de potentialiser leur synergie. Elle concerne 6galement 

10 les fragments d'ADN codant pour lesdits fragments proteiques. La presente 
invention concerne enfin des compositions enzymaiiques permettant 
d'associer plusieurs enzymes pour les faire agir ensemble simultan6meni ou 
de mani^re s^quentielle afin de potentialiser leur synergie. Par exemple, 
dans le cas d'une action sequentielle, plusieurs types d'enzymes k activiie 

15 diff6rente peuvent agir successivement sur un meme melange de substrats. 

Les cellulases de plusieurs bacteries cellulolytiques sont 
organisees en complexe enzymatique comporiant des sous-unit6s ii activite 
catalytique interagissant avec un polypeptide sans activity catalytique 
appel6 "prot^ine de charpente". Cette interaction se realise via des 

20 domaines des sous-unit6s a activite catalytique appel^s "domaines 
dockerine" et des domaines repetes de la prot^ine de charpente appel6s 
"domaines cohesine" de taille plus importante que les domaines dockerine 
des unites catalytiques. 

A ce jour, seuls les domaines cohesine des; proteines dc 

25 charpente ont 6t6 identifies, ces domaines sont appeles dans la presente 
description, domaines coh6sine de type I. 

En particulier, Clostridium thermocellum . une bacterie Gram 
positive, thermophile et anaerobie, produit un complexe cellulolytique a 
masse mol6culaire ^lev^e denomme cellulosome (15. 16, 21). Ce complexe est 

30 initialement fix6 a la surface cellulaire et est ensuiie libere dans le milieu. 
Le cellulosome est compost d'au moins 15 polypeptides differents, 
comprenant de nombreuses R-l,4-endoglucanases, au moins une 
cellobiohydrolase (23) et plusieurs hemicellulases (R'l,4-xylanascs, 
lich6nases) (22). Les composants catalytiques sont lies de manidre non 

35 covalente a une sous-unit6 de charpente non catalytique, denomm^e CipA 
(pour Cellulosome Integrating Protein) (37). 
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La prot^ine CipA et des composants similaires identifies dans 
les complexes cellulolytiques d'autres Clostridium cellulolytiques sont des 
prot^ines de charpente ou "scaffoldines" (2). 

Le mode de fixation des sous-unites catalytiques a la proteine 
S Cip A a 6t6 61ucid6 (references n' 8. 33). Chaque sous-unite catalytique 
contient un segment duplique et conserx'e de 23 residus, constituant un 
domaine dockerine (2). Les domaines dockerine entrent en inieraaion avec 
un ensemble de domaines de liaison complementaires, ou domaines cohesine 
(2). 

domaines, dont neuf copies sont presentes dans la sequence 
de CipA, sont trds semblables entre eux, particuli^rement les domaines 4 i 8, 
qui poss6dent plus de 95 % de residus identiques (11). 

11 a 6t6 montr6 que Ton peut greffer un domaine dockerine sur 
une proteine ne faisant pas partie du cellulosome, par exemple 
15 I'endoglucanase CelC de C. r/iermocey/um, et que celle-ci acquiert de ce fait 
la capacity de se fixer sur CipA (32). 

Cette observation a sugg^r^ la possibilite d'utiliser I'affinit^ 
entre domaines cohesine et domaines dockerine afin de cr6er des complexes 
artificiels incorporant diverses prot^ines fusionnees a des domaines 
dockerine ad6quats, interagissant avec les domaines cohesine de la proteine 
de charpente (2, 32). De tels complexes pourraient trouver diverses 
applications biotechnologiques. En modifiant de maniere controlee, la 
composition de cellulosomes naturels, il pourrait Stre possible d'optimiser 
leur activity vis-i-vis de substrats cellulosiques d^finis. On peut 6galement 
envisager d'am^liorer le processus de degradation d'autres substrats 
complexes et insolubles. faisant appel a des enzymes de specificity 
compl^mentaire, et dont Paction synergique serait potentialis^e par une 
association en complexes multienzymatiques. De meme, I'association 
physique d'enzymes effectuant des reactions s^quentielles permet 
d'acc616rer celles-ci lorsque la vitesse de diffusion du produit de la premiere 
reaction vers le deuxieme site reactionnel est limitante (L Baiow et 
K. Mosbach, Multienzyme systems obtained by gene fusion, Trends in 
BiotechnoL 9, 226-231). Par ailleurs. I'utilit^ de complexes multiprot6iques 
n'est pas Iimit6e k I'association d'enzymes. La construction dci complexes 
prot6iques multifonctionnels est en effet susceptible de donner lieu b. une 
grande vari6t6 d'applications, discutees dans la reference (2). 
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Cependant, la construction de complexes de stoechiom^trie et 
de topologie d^finies se heurte k une difficulte importante. Tous les 
domaines coh^sine connus jusqu'a present sont tres semlables quant a leur 
sequence et di leur specificite de liaison. Par exemple/ il a ete niontr6 que 
5 CelS, une des sous-unit6s catalytiques du cellulosome. peui se lier de fagon 
^quivalente aux domaines cohesine (18b) 1, 2, et 9 de CipA, et 
vraisemblablement k tous les autres domaines cohesine de celle-ci. En 
consequence, il n'est pas possible de programmer la liaison d'une prot^ine 
de fusion, porteuse d'un domaine dockerine, a un domaine cohesine ddfini 
10 de la prot^ine de charpente. 

Les domaines cohesine connus jusqu'a ce jour, poss^dant une 
forte similitude de sequence et de specificity de liaison, ont 6i€ group^s sous 
le nom de domaines cohesine de type I. De meme, les domaines dockerine 
port6s par les sous-unites catalytiques du cellulosome, et capables de se lier 
15 aux domaines cohesine de type I, sont appeles domaines dockerine de type 1. 

11 existe cependant d Textremite COOH-terminale de CipA un 
domaine pr^sentant une similitude de sequence eloign^e avec les domaines 
dockerine de type I, mais incapable de se lier aux domaines cohesine de type 
L 11 permet aux proi^ines qui le portent de se fixer a xron\ polypeptides 
20 exocellulaires de C. thermocellum. La structure et la fonction de ces 
polypeptides sont inconnues (29). 

L'invention repose sur la caracierisation d'un gfene, sdbA 
(^'scaffolding dockerin binding protein"), qui a 6x6 clone et sequence, dont 
le produit SdbA est capable de se fixer specifiquement au domaine COOH- 
25 terminal de CipA, k Texclusion des domaines dockerine de typ e 1 portes par 
les sous-unites catalytiques du cellulosome. La caracterisation du 
polypeptide SdbA montre qu'il comporte une region specifique responsable 
de la liaison avec le domaine COOH-terminal de CipA, et dont In sequence est 
tres differente de celle des domaines cohesine de type 1. Cette region, ainsi 
30 que les segments polypeptidiques de sequence et de specificite: d'interaction 
similaire, sont nouveaux et appeles domaines cohesine de type: II. De meme, 
la region COOH-terminale de CipA est appelee domaine dockerine de type II. 
L'utilisation de domaines cohesine et dockerine de type II, eventuellement 
en conjonciion avec des domaines cohesine et dockerine de iiype different 
35 (par exemple de type I) permet de consiruire des complexes proteiques 
mieux definis. 
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L'int^r^t des domaines coh^sine de type II selon la presente 
invention est de presenter une specificite de reconnaissance differente de 
celle des domaines cohesine de proi^ine de charpente connus 
pr6c6demment, notamment ceux de la proteine CipA. 
5 La pr6sente invention concerne plus particuilidrement des 

domaines cohesine de type II ainsi que des domaines dockerir e de type II. 

La presente invention concerne notamment deji composes sur 
lesquels sont capables de se fixer de fagon covalente ou non au moins un 
domaine cohesine de type II ou un domaine dockerine de type 11. 
10 Plus particuli^rement ces composes sont des peptides, 

polypeptides ou prot^ines, mais il peui s'agir de lipides ou de glycosides ou 
bien de molecules de type mixte telles que protioglycane, 
lipopolysaccharide par exemple. II est possible de pr6voir d'autres types de 
molecules notamment des marqueurs ou par exemple des molecules 
IS chimiques th^rapeutiques ou non. 

Un domaine cohesine de type II est un domaine prot^ique qui 
se lie de fagon sp^ciFique avec le domaine dockerine de CipA correspondant 
au domaine dockerine de type II tel qu'il sera defini ci-apres. De pr6f6rence 
TaffinitS du complexe ainsi form6 sera au moins de 105 M/L tel que mesur6 
20 par la mfithode d^crite dans SALAMITOU et al (r6f, 28). 

La sequence du domaine dockerine de CipA est celle 
correspondant k VIDS n** 4. 

Un domaine cohesine de type II peui correspondre k des 
sequences naturelles, il peut notamment s'agir de domaine provenant de 
25 bact6ries cellulolytiques notamment des Clostridium comme cela sera d^crit 
ci-apr6s pour SdbA. 

Mais de tels domaines sont egalement presents sur les 
protiines OlpB et 0RF2p. 

La notion de domaine cohesine de type II incorp^ore egalement 
30 des sequences prot^iques non naturelles pour autant qu'elles puissent se 
Her avec le domaine dockerine de type II de CipA. 

II peut alors s'agir notamment de domaines homologues aux 
domaines naturels ou de fragments de ces domaines mais il est possible de 
pr6voir Egalement des domaines eniieremeni syntheiiques obtenus par 
35 exemple en utilisant certains acides amines non natureli;, ou bien en 
utilisant des dements ameliorant Taffinite, 
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Par "prot^ine homologue" ou "sequence homologue" on 
entend selon la prtsente invention toute proteine, polypeptide ou peptide 
pr6sentant une homologie de sequence d'au moins 25 % par rapport au 
domaine coh^sine de type H notamment celui correspondant a SdbA, ladite 
sequence conservant les propri^t^s de liaison specifique au. domaine 
dockerine concern^, notamment au domaine dockerine de CipA. 

Par "fragment de proteines" ou "fragment de sequences" on 
entend un fragment d'au moins 50 acides amines conservant les propri6t6s 
de liaison sp6cifique au domaine dockerine concern^, notamment au 
domaine dockerine de CipA. 

II faut rappeler qu'un domaine cohesine de type II doit 
presenter une bonne affinite pour le domaine dockerine correspondant 
mais ne doit presenter que pas ou peu d 'affinity pour le domaine dockerine 
de type different notamment de type 1. 

La pr^sente invention concerne ^galement les composes 
comportant un domaine dockerine de type II, c'est i dire un domaine 
prot6ique qui se lie de facon specifique avec un domaine cohesine de type II 
et ce avec une affinite d'au moins 105 M/L mesure comme pr6c6demment. 

Cette definition n'est pas redondante, en effet il faut bien 
comprendre qu'^ partir du domaine dockerine de type II de CipA il est 
possible de d^finir un certain nombre de domaines cohesine de type II, 
lesquels peuvent permettre de dgfinir de nouveaux domaines dockerine de 
type II lesquels comme precedemmenl peuvent etre d'ori|jine naturelle. 
mais peuvent etre constitues de fragments de domaines de sequences 
homologues ou bien dventuellement comme cela a 6t6 indiqu6 
prec6demment, comporter des sequences enti&rement synth^tiques avec 
^ventuellement des acides amines non naturels. 

La liaison entre un domaine cohesine et un domaine dockerine 
de type II sera d^nomm^e ci-apres par simplification interaction C/D de 
type II, le complexe ainsi forme 6tani denomme soit complexe C/D de type II 
lorsqu'il ne comporte qu'une seule interaction C/D de type II soit complexe 
muliim^rique lorsqu'il comporte au moins une interaction C/D autre que de 
type II, interaction C/D de type I par exemple et/ou d'autres formes 
d'interactions : avidine/biotine, antigene/aniicorps par exemple. De 
preference, les complexes multimerique selon invention comportent 
essentiellement des interactions de type C/D. 
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Ainsi la pr6sente invention, grace k ces diff^rentes 
interactions, permet de cibler I'integration dans un compilexe d'enzymes 
diff^rentes ei de fournir un complexe artificiel utilisant notamment une 
prot^ine de charpente comporiant des domaines dockerine de specificity dc 
liaisons diff^rentes afin d'agencer de maniere sp6cifique diverses. proteines 
porteuses de domaines coh^sine correspondants. 

Plus particulierement. la presente invention fournit un 
polypeptide ayant un domaine coh^sine de type 11, selon I'invention 
caract^rise en ce qu'il est capable de se fixer au domaine dockerine COOH- 
terminal de la prot6ine de charpente CipA du complexe cellulolytique de 
qiostridiym thermorellum . Toute prot^ine ou peptide pr^sentant ou 
comportant une sequence ayant plus de 25 % de residus d'acides aminds 
identiques avec un domaine cohdsine de type II de SdbA entre dans la 
definition de I'invention. En particulier. il s'agit d'une proidine de 
15 Clostridium thermnrppnm ou d'un fragment de celle-ci. 

Dans un mode plus particulier de realisation, la presente 
invention a pour objet une proteine SdbA ("scaffolding dockerin binding 
protein-) de Clpsrndium TbermorPllum de poids moleculaire apparent de 
68kDa(i 10 96) comportant un domaine cohesine qui est capable de se fixer 
avec un domaine dockerine de type II notamment de.Ia proteine CipA de 
Clostridium Th Tmocellum 

l£ polypeptide SdbA du complexe cellulolytique de Clostridium 
thgrmocellum . a une sequence de 631 acides amines substantiellement telle 
que representee sur I'lDS n*l. 

La presente invention a permis d'identifier le domaine de la 
proteine SdbA capables de se fixer au domaine dockerine de CipA. En 
particulier. le domaine cohesine comprend une sequence de la region N- 
terminale de la proteine de 184 acides amines substantiellement telle que 
representee dans I'lDS n' 1 de I'acide amine n' 27 a I'acide amine n* 210 de 
la sequence de la proteine ou une sequence homologue ou un fragment de 
cette sequence ou d'une sequence homologue capable de se fixer k un 
domaine dockerine de la proteine CipA. par exemple. un fragment de ces 
sequences d'au moins 50 acides amines capable de se fixer H un domaine 
dockerine de la proteine CipA. 
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La presente invention a permis d'identifier des domaines 
coh6sine de type II d'autres proteines de Clostridium rhPirm nrPlltim, en 
particulier des proteines OlpB et ORF2p (9, 17). SdbA presente une 
homologie de sequence avec les sequences repetees N-terminale de OlpB et 
ORF2p. 

Le segment polypeptidique comprenani les residus 26-199 de la 
prot6ine OlpB, qui presente une forte similitude de sequence avec les residus 
27-191 de SdbA, peut egalement fixer le domaine C-ierminal de CipA 

Ainsi outre des fragments de la prot^ine SdbA ou d'une 
prot^ine homologue interagissant avec un domaine dockerine d'une 
prot^ine de charpente selon I'invention, la prdsenie invention a done 
6galement pour objei des fragments de OlpB et 0RF2p, de sequences 
similaires au domaine coh6sine de type II de SdbA. 

La pr6sente invention a done pour objet tout polypeptide 
comprenant comme domaine coh^sine la sequence correspondant 
substantiellement k I'une des sequences de la prot^ine OlpB choisies parmi 
la sequence des acides amines n* 28 au n^ 192, la sequence des acides amines 
n* 207 au n* 363, la sequence des acides amines n* 409 au n" 565 et la 
sequence des acides amines n"* 607 au n*' 763 de TIDS n* 2 ou une sequence 
homologue k I'une de ces sequences ou un fragment de ces sequences d'au 
moins 50 acides amines, capable de se fixer a un domaine dockerine de la 
prot6ine CipA. 

La presente invention a egalemenl pour objet tout polypeptide 
comprenant un domaine coh^sine qui a substantiellement pour sequence en 
acides amines, une sequence de la proieine 0RF2p choisie parnii la sequence 
des acides amines 38 ^ 195 et la sequence des acides amin&; n** 209 ^ 365 
de riDS n* 3, ou une sequence homologue a ces sequences ou un fragment 
de ces sequences d'au moins 50 acides amines capable de se fixer 4 un 
domaine dockerine de la proieine CipA. 

La presente invention a Egalement pour objet tout polypeptide 
qui comporie un segment de sequence de plus de 50 acides amines, 
pr6seniant plus de 25 % de residus identiques avec I'un des segments de 
riDS n' 1, de I'lDS n' 2, ou de I'lDS n^ 3 decriis ci-dessus, et capable de fixer 
le domaine dockerine de CipA. 
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Parmi les composes selon la presente invention comportani un 
domaine coh^sine de type II ou dockerine de type II il faut citer par exemple 
les enzymes, les r^cepteurs, les antigenes, les anticorps ou un de leurs 
fragments comportant entre 20 et 100 acides amines. 

Dans le cas particulier ou la proteine est une enzyme, il 
s'agira par exemple d'une ceilulase permettant une meilleure hydrolyse de 
substrat cellulosique ou tout autre type d'enzyme hydro!ytiqu<;. 

Dans le cas ou le compose selon Tinvention est 
essentiellement une proteine, les parties de la proteine peuvent dtre 
fusionn^es audit domaine cohesine ou dockerine par Tintermediaire d'un 
fragment polypeptidique. La liaison peut etre egalement une liaison non 
covalente, par exemple une liaison conformationnelle. 

La pr6sente invention a Egalement pour objet un fragment 
d'ADN codant pour un compose selon Tinvention lorsque celui-ci est un 
polypeptide ou codant pour la proteine SdbA ou un fragment de celle-ci, 
lorsque le compost selon ^invention comporte d'autres Elements que le 
polypeptide ou la proteine , I'invention concerne ^galemeni: le fragment 
d'ADN codant pour le polypeptide ou la proteine. 

La presente invention repose en partie sur le clonage 
mol^culaire et le sequencage du gene denomm^ sdbA, dont le produit se fixe 
sp6cifiquement au domaine dockerine porte par CipA. Des segments du gene 
ont it€ 50us-clon6s et exprim6s separement, pour permettre d 'identifier la 
region du polypeptide responsable de la fixation du domaine dockerine de 
CipA. II s'agit du fragment d'ADN comprenant un cadre de lecture ouvert 
de 1 893 nucleotides, et codant pour le polypeptide de 631 aminoacides 
d6nomm6 SdbA, ayant une masse moleculaire calculee de 68 577 Da. 

La presente invention a done egalement pour objet un 
fragment d'ADN repr6sent6 substantiellement par la sequence 1 ^ 1893 de 
riDS n** 1 codant pour la proteine SdbA ainsi qu'une souche de E coli 
d^poste la CNCM de I'lnstitut Pasteur sous le n" I-I684 transform^e par le 
plasmide PCT1830 comportant un fragment d'ADN cprrespondant k cette 
sequence codant pour la proteine SdbA. 

La presente invention a en outre pour objet un fragment 
d'ADN qui a pour sequence essentiellement les nucleotides 82: a 573 dans 
riDS n* 1 codant pour le domaine cohesine de la proteine SdbA ainsi qu'une 
souche de E coli d^posee k la CNCM de Tlnstitut Pasteur sous le n'* 1-1683 
iransform^e par le plasmide pCT1801 comportant un fragment d'ADN 
correspondant k cette sequence de 1893 pb. 
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De meme la pr6sente invention a egalement pour objel un 
fragment d'ADN caract6ris6 en ce qu'il a substantiellemeni pour sequence 
Tune des sequences codant pour un domaine coh^sine de la prot^ine OlpB 
choisies parmi la sequence des nucleotides 85 a 570, la sequence des 
nucleotides 619 k 1095, la sequence des nucleotides 1225 k 1689 et la 
sequence des nucleotides 1819 a 2189 dans TIDS n" 2 ainsi qu'un fragment 
d'ADN caraci6ris6 en ce qu'il a substantiellement pour sequence Tune des 
sequences codant pour un domaine cohesine de 0RF2 choisies parmi la 
sequence des nucleotides 109 a 582 et la sequence des nucleotides n' 625 i 
1092 dans TIDS n** 3. 

La presente invention a egalement pour objet des fragments 
d'ADN qui ont pour une sequence une sequence complementaire ou 
homologue ou complementaire de Thomologue d'un des fragments d'ADN 
tels que dermis ci-dessus. 

Par "fragment d'ADN homologue" on entend des fragments qui 
codent pour des polypeptides homologues comme cela a 6te decrit 
precedemment. 

La pr6sente invention a egalement pour objet des fragments 
d'ADN capables de s'hybrider dans des conditions faiblement stringentes 
(19) avec un fragment d'ADN selon I'invention tel que d6fini 
precedemment. 

La presente invention concerne egalement de^; complexes 
comportani au moins un compose tel que decrit precedemmeni: lie par une 
interaction C/D de type II avec un compose comportant an moins un 
domaine dockerine de type 11, chaque compose constituant un element du 
complexe. 

II s'agit notamment d'un complexe multimerique caracterise 
en ce que au moins deux des "elements" du complexe sont lies par une 
interaction C/D de type IL De preference le complexe comportera au moins 
trois "elements" dont deux des "elements'* sont lies par une interaction 
autre que C/D de type II par exemple par une interaction C/D de type 1. 

Par "element" on designera : 
un compose selon I'invention qui pourra eveniuellement comporter un 
autre domaine de liaison : interaction C/D de type 1 par exemple, ou blen 
un compose comportant un seul domaine de liaison different de 
I'interaction C/D de type II mais capable de se fixer sur un compose selon 
I'invention. 
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En utilisant judicieusement les divers types d'interactions, il 
est possible d'obtenir des complexes ayant des structures varices. La 
structure du complexe multimerique ou la structure du complexe de type II 
selon I'invention peuvent etre ainsi de type lineaire ou greflee ou bien de 
type mixte. 

Un complexe multimerique de type lineaire comprend un 
enchainement de composes selon Tinvention, ne comportant que deux 
domaines de liaison chacun. Un tel complexe est repr&ent^ k la figure 1 B. 

Au contraire, une structure greff^e comporte en general une 
molecule de structure avec un certain nombre de domaines de liaison et des 
greffons prot6ines par exemple, ne comportant qu'un seul dornaine, ce type 
de structure est schematise k la figure lA et IC. 

Bien entendu, il est possible de prevoir des structures qui 
combinent ces deux structures de base, on peut meme prevoir des 
structures cycliques. 

En effectuant une fixation de fagon s^quentielle on peut ainsi 
obtenir un complexe de structure bien defini, ce qui est pariiculierement 
interessant pour obtenir des complexes enzymatiques. 

Les composes selon la presente invention peuvent: etre obtenus 
par genie genetique lorsqu'il s'agit de proieines. Lorsque lies composes 
component des elements non proteiques, ceux-ci peuvent etre greffes par 
des moyens connus notamment par reactions chimiques pour les liaisons 
covalentes ou par des liaisons non covalentes. 

Une premiere fagon de mettre en oeuvre Tinvention consiste a 
fusionner au moyen du genie genetique des domaines cohesine 
respectivement dockerines de type different, de fagon a construire des 
proteines de charpente comportant ces domaines en nombre et en ordre 
dermis. Paralieiement, des domaines dockerines respectivement cohesines 
adequais sont greffes sur des proteines etrangeres, par exemple des 
enzymes, que I'on desire associer dans un ordre choisi Ic; long de la 
proteine de charpente, on obtient ainsi une structure greffee 
correspondant k la figure lA ou C, Ce type de mise en oeuvre conduit a des 
complexes se rapprochant du cellulosome naturel. 

Ces complexes selon Tinvention pourront comprendre de 
preference pour chaque compose des segments peptidiques de jonction. de 
longueur et de sequence appropriees. Par exemple, les consirucnions 
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reprendront les segments de jonction naiurels riches en proline et/ou 
hydroxy amino acides presents dans les polypeptides naiurels. 
L'incorporation des proteines que Ton desire associer s'effectue par 
rintermddiaire d'un domaine cohesine ou dockerine gr.effe, par exemple au 
moyen du g6nie g^n^tique. 

Dans le complexe selon la pr^sente invention, le nombre 
d'^l^ments du multim^re est compris enlre 1 et 50 elements associ^s 
entre eux et de pr6f6rence 1 et 20. 

Dans un mode de realisation, chaque element du complexe 
comprend des domaines coh^sines ou des domaines dockerine:. 

Mais il est possible de prevoir des elements comportant des 
domaines coh^sines et dockerines. 

La pr^sente invention a 6galement pour objet un fragment 
d'ADN codant pour un 616ment du complexe selon invention. 

D'une manidre generale, la presente invention a dgalement 
pour objet les vecteurs d'expression comprenant un fragment d'ADN selon 
I'invention plac6 sous le controle d 'elements assurant son expression dans 
une cellule hdte de type eucaryote ou dans un hole bacterien tel qu'une 
souche de E-gplj iransform^e par un vecteur d'expression selon Tinvention, 
et un proc6d6 de preparation d'un polypeptide selon I'invention ou d'une 
prot^ine selon I'invention caracteris6 en ce qu'on realise la culture de 
cellules hdtes transform^es k I'aide d'un vecteur d'expression selon 
Tinvention ou par culture d'une souche de E.coli selon I'invention, 

Enfin la pr6sente invention fournii une composition 
enzymatique comprenant plusieurs enzymes reunis afins de les faire agir 
ensemble et le cas 6ch6ant potentialiser leur synergie. par Tinterm^diaire 
d'un complexe multim^rique sur chacun desquels est couple une enzyme 
diff^rente. 

La presente invention concerne des compositions comportant 
au moins un complexe multimerique pr^sentant au moins un domaine 
d'interaction C/D de type II. 

En particulier, une composition enzymatique selon I'invention 
peut comprendre deux enzymes reunies afin de les faire agir ensemble et le 
cas 6ch6ant potentialiser leur synergie, par I'iniermediaire d'un complexe 
selon I'invention comportant une premiere enzyme, et une seconde enzyme 
Ii6e par interaction C/D de type II. 
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Dans une variante avantageuse de realisation;, ledit complexe 
comporte un polypeptide comprenant un domaine coh^sine selon 
I'invention, coupli k un domaine dockerine de la prot^ine Cip A coupl6 k 
un premier enzyme, et un deuxi^me ^I^ment comprend un domaine 
dockerine d'une sous unit6 catalytique du complexe cdlulolytique de 
Clgnrid j um thgrmorellum couple a une seconde enzyme, qui se liera au 
domaine coh^sine. 

Les complexes muJtimeriques selon I'invemtion sont plus 
particuli^rement utilisables lorsque lesdits complexes multim^riques 
potentialisent la synergic des elements des complexes, notamment lorsqu'il 
s'agit d'une composition enzymatique. 

La prdsente invention concerne ^galement un precede de 
detection d'un antigene ou d'un anticorps par la mise en contact d'un 
complexe multim^rique selon I'invention avec une solution contenant un 
anticorps ou un antigdne d'int^r^t et la r6v61ation de la reaction entre le 
complexe multim^rique et I'antig^ne ou I'anticorps. 

La r6v61ation peut se faire par marquage radioactif du 
complexe anticorps ou antigene ou par visualisation en utilisant des 
marquages non isotopiques, par exemple de type avidlne - b.iotine ou tout 
20 autre marquage Equivalent. 

D'autres caract^ristiques et avantages de la presente invention 
apparaitront k la lumi^re de la description detaillee qui va, suivre. Cette 
description fait r6f6rence aux figures 1 k 6. 

U figure 1 schematise la structure de complexe muliimerique 
25 selon I'invention. 

La figure 2 repr^sente une carte de restriction de la region 
comprenant le g6ne sdbA. et construction de pCT1830, pCT1831 et pCT1832, 
codant pour SdbA-N. SdbA-C et SdbA, respectivement. E: EcollI; K: Kpnl; P:' 
PstI; Sa: Sail; Sc: Sad; Sp: SphI; SCM: site de clonage multiple. Les positions 
des segments codant pour les diverses regions identifiees dans SdbA sont 
indiqu6es par des cadres de dessins differents. Les nombres se r6f6renl i la 
sequence nuclEotidique (figure 3). Les nucleotides qui ont 6t6 changes dans 
la sequence amplifiie par PCR sont indiques en gras. L'ADN du vecteur 
PQE-30 est indiquE par un trait mince. La sequence de pQE-30, codant pour 6 
r^sidus histidine, est representee par un cadre qui n'est pas rechelle. La 
transcription de sdbA va de gauche a droite. 
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La figure 3 represenie une sequence hucleotidique de la 
region codant pour le g^ne sdbA. Le site de liaison ribosomique suppose est 
soulign^. Les diverses regions ideniifiees dans SdbA sont indiqu6es par des 
cadres de mfime dessin que sur la figure 2, SLR: site de liaison ribosomique. 

La figure 4 represente Talignement du domaine cohesine de 
SdbA et des domaines cohesine de OlpB et 0RF2p (9). Les residus qui sont 
identiques ou similaires a la majority des sequences representees sont 
indiques sur un fond ombre. La numerotation des residus commence avec 
des codons d'initiation supposes. Les aminoacides similaires sont: F, I, V, L et 
M; R et K; S et T; D et E; N et Q; et F, Y et W. 

La Figure 5 represente la similarity entre les residus 264 k 275 
de SdbA et d'un motif present dans les prot^ines M de Streptococcus 
pyogep^S. Ml: (numero de depot GenBank x72752), M9 (24), RAM (3), 
Ml 2 (26). Pour chaque proteine, la numerotation commence avec le codon 
d'initation suppose. Les residus qui sont identiques ou similaires dans la 
majority des sequences representees sont indiques sur un fend ombre. Les 
criieres de similarite sont les memes que pour la figure 4. 

la figure 6 represente Talignement des segments r6pet6s COOH- 
terminaux de SdbA avec les sequences similaires d'autres proteines de 
suface cellulaire. OlpA: proteine A de couche externe de C, thermocellum (9); 
OlpB: proteine B de couche externe de C. thermoreniim (9); Pul: puUulanase 

J. thgrpiosulfurlRgnes EMI (20); Bsph: proteine de couche S de 
gpha^rkyg (4). Pour chaque proteine. la num6rotation commence au niveau 
du codon d'initiation suppose. Les residus qui sont semblables ou identiques 
dans au moins huit segments sont indiques sur fond ombre. Les criteres de 
similarite sont les memes que pour la figure 4. 

L MATERIEL ET METHODES 

1- Souches bacteriennes. olasmides et conditions de rulturp 

Les souches bacteriennes et les plasmides utilijies dans cette 

etude sont recapituies dans le tableau 1. La souche TGI d' Escherichia coli a 

ete utilisee pour le clonage et le s6quencage. Les proteines ont ete produites 

dans E coli Ml 5 {pREP4). 

C. thermocellum a ete cultive dans des conditions anaerobies, k 

60X dans du milieu CM3-3 complete avec 5 g de cellobiose par litre (31), 
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On a cultive E coli a 37X, dans du milieu de Luria Bertani (19). 
On a ajout6 des antibiotiques en fonction des plasmides presents dans Thote: 
100 Hg/ml de ticarcilline. 30 ng/ml de chloramphenicol,. 25 jxg/ml de 
kanamycine. 
2. Manipulations d'^pf^ 

L'ADN g^nomique de C. thermorelluTn a it^ purifi^ par la 
m^thode de Marmur modifiee par Quiviger et coll. (25). D^autres 
manipulations d'ADN ont et^ effectuees selon Ausubel et coll. 11). On a utilise 
les enzymes de restriction en suivant les recommandations dtts fournisseurs. 

Les amorces oIigonucl6otidiques ont €i€ synthetis6es par 
Eurogentec SA (Sering, Belgique) ou Genset SA (Paris, France). On a effectu6 
ramplification par PGR selon Saiki et coll. (27), en utilisant 100 pmoles de 
chaque amorce oligonucl^otidique dans un melange rdactionnel de 100 ^l. 
MgCl2 a M ajout^ jusqu'a une concentration finale de 2 mM, On a effectu6 
35 cycles d'ampliHcation. Les parametres 6taient les suivants: hybridation: 1 
minute k 65X; extension: 1 minute 72X; et d^naturation: 1 minute i 94*C. 
On a toujours virifi^ la sequence des fragments clones obtenus par PGR. 
3. Construction de la banaue genomioue de C. thermocellum 

L'ADN de C, thermocellum a €te partiellement dig6r6 par 
Sau3AI. et les fragments ont ete separes sur un gradient de saccharose. Des 
fragments de plus de 12 kb ont ete inseres dans le plasmide pUC18 coupe par 
BamHI, et traitis par de la phosphatase alcaline bacterienne (Ready-to-go, 
Pharmacia). Des cellules de E. coli TGI ont et6 transform^es par 
61ectroporation et 6tal6es en presence de 0,8 mg de 
5-bromo-4-chloro-3-indolyl-p-D-galactoside par plaque et 0,2 mg 
d'isopropyl-p-D-thiogalactoside (IPTG) par plaque. 

4- Criblage de colonic et ren^rage de oroteines transferees rut mPmhranA 

On a cribl6 comme decrit (8) les clones recombinants, en 
recherchant la fixation de GelG-DsGipA marquee au i25i. 

Pour identifier les polypeptides porteurs de domaines cohesine 
de type II, on a analyst les proteines par SDS-PAGE (14) et on les a 
tranfer^es sur une membrane en Nylon (Hybond-N+, Amersham) (1). La 
membrane a 6x6 mise k incuber avec CelG-DsGelD et GelC-DsGipA marquees au 
1251, lav6e et autoradiographi^e comme decrit precedemment (29, 32). 

5- sequence s d'ADN et analyse des sequences 
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Les fragments de restriction appropries de pCT180l ont 6t6 
sous-cIon6s dans le plasmide pBCSK, et on a engendre des deletions 
emboit^es en utilisant de rexonucI6ase III et de la nuclease SI (necessaire 
Erase-a-base, Promega), comme indiqu6 par le fournisseur. On a s6quenc6 
les matrices monocai^naires conform^ment k la methode de termipaison de 
chaine did6soxy de Sanger et coll. (30), en utilisant lies n^cessaires 
Sequenase et Taquence (USB-Amersham). La sequence a 6t6 d^termin^e au 
moins une fois sur chaque brin. L'analyse par ordinateur des donn^es des 
sequences a 6t6 effectuee au moyen du logiciel Sequence Analysis Software 
Package de Genetic Computer Group, version 7 (University of Wisconsin) 
(6). 

^' Construction de clones d'exnressi on et nurirycations dp pr't^m ^ 

En utilisant le vecteur pQE-30, on a construit des clones 
produisant en exc6s des formes de SdbA intactes ou comprenant des 
15 d616tions. Ainsi, on a fait fusionner la sequence codant pour le polypeptide 
rechercW avec un segment codant pour 6 rdsidus His, pour faciliter la 
purification (13). Afin de doner le fragment codant pour le domaine 
NH2-terminal de SdbA, on a synth^tis6 par PGR un fragment de 670 pb 
encadr6 par BamHI et PstI (figure 1). L'amorce directe etait 

5'-CTG CCG GCG GGA TCC GCA AGG GCA GAT-3' 
et l'amorce inverse 6tait 

5'-ACT TIT GCA GAA TITTCT GCA GGC G-3'. 
Le fragment a 6U ins6r6 entre les sites BamHI et PstI de pQE3Ci, pour donner 
PCT1830. Le polypeptide code par pCT1830 a 6te denomm6 SdbA-N. 

Pour doner la region codant pour les domaines CCX)Hterminaux 
de SdbA, on a fail dig^rer par BamHI le plasmide pCTlSOl. Les extr6mit6s ont 
6t6 compl6t6es et converties en extremites f ranches k I'aide du fragment de 
Klenow de I'ADN polymerase. Apres nouvelle coupure par PstI, le fragment 
de 1,4 kb, codant pour les domaines COOH-terminaux, a et6 purifi^ et ins6r6 
dans le vecteur pQE-30 qui avait ^t^ dig^r^ par Hindlll, traits par le 
fragment de Klenow de I'ADN polymerase et digere a nouveau par Pstl. Le 
plasmide resultant a tti d^nommiS pCT1831, et le polypeptide cod6 a 6t6 
d6nomm6 SdbA-C. 

Le plasmide pCT1832, exprimant la sequence comjslete de SdbA, 
a 6t6 construit par insertion du fragment BamH-PstI de 670 pb (voir plus 
haut) dans le plasmide pCT1831 dig6r6 par BamHI et Pstl. 
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La production et la purification des prot6ines ont ete 
effectu^es au moyen du systeme Qjaexpress (QJAGEN Inc.). Des cultures de 1 
litre ont €t€ mises k incuber a 3rc jusqu'a une DOgoo de 0.7. On y a ensuite 
ajout6 de I'lPTG }usqu'k une concentration finale de 0,3 mM, et les cultures 
ont 6t6 mises 4 nouveau 4 incuber pendant 5 heures i 37°C, On a remis les 
cellules en suspension dans 80 ml de Tris.HCl 50 mM, pH 7.5 (lampon A) et on 
les a lys^es au moyen d'une presse de French Aminco. sous une pression de 
100 MPa. On a centrifuge I'extrait a 9 000 g pendant 20 minutes afin 
d'^liminer les debris cellulaires. On a injecte le surnagcant dans une 
colonne de 8 ml de r^sine Ni-NTA equilibree avec du tampon A, on a lav6 la 
colonne avec du tampon A et on I'a iluee avec le meme tainpon contenant 
250 mM d'imidazole. Les fractions dlu^es ont €t€ dialysees pendant une nuit a 
4*C, centre 1 litre de tampon A. Les proteines purifiees ont ^ite conserv^es a 
-80*C. 

^' P^termlnation de se quence amino-terminale d'aminnarf^ .;».! 

50 pmoles de chaque polypeptide a sequencer om 6t6 s6par6es 
par SDS-PAGE et transferees pendant une nuit, a la temperature ambiante, a 
850 mA sur une membrane en PVDF [poly(chlorure de: vinylidene)] 
hydrophobe (Problott. Applied Biosystem) traitee par du methanol k 100 %, 
20 au moyen d'un systeme Trans-Blot Cell (BioRad) contenant 50 mM de Trii 
(base), 50 mM de tampon acide borique. On a colore les bandes au noir amide 
4 0,003 96, on les a excisees, et on a determine la sequence amino-terminale 
des polypeptides par la methode d'Edman. en utilisant un appareil de 
sequencage 473A ou Precise HT (Applied Biosystem). 
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II. RESULTATS 



1. Cjonagg d'un p^ne codant nour un nolvnpp ti de se fivant cpecifiQuement 
au domalne do ckerine de CApA 

30 On a cribie 1 600 clones recombinants en recherchant la 

fixation de CelC-DsCipA marquee au i25i. Huit clones independants ont ete 
marques specifiquement. Les contrdles effectues avec de la CelC-DsCelD 
marquee au 12SI ont indique que la fixation etait specifique pour le domaine 
dockerine de CipA (figure 2). 

Tous les segments clones s'hybrident avec la meme region du 
genome de C, thermore||um (donnees non representees), dont la carte est 
representee sur la figure 1. Ces cartes de restriction sont en accord avec les 
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fragments de restriction reveles par analyse Southern blot dans I'ADN de £ 
thermoQ^llnm (donn^es non representees). Les segments ne s'hybridaient 
pas et n'om pas de fragments de restriction en commun avec la region 
comprenant cipA et olpA (9). Dans la region couverte p;u- les fragments 
clones, un segment de 1.6 kb. compris entre le site PstI et la limite.gauche de 
rmsert port6 par pCTlSOl (figure ]). est ndcessaire et suffisant pour coder 
pour un polypeptide capable de fixer le domaine dockerine de CipA. Le g6ne 
correspondant a 6t6 d6nomm6 sdbA. 
2. Analyse do ^ «4q..op^^ 

La sequence du gene de la SdbA est representee sur la figure 3 
la sequence codante comprend 1 893 nucleotides. Le codon d'initiation ATG 
est pr6c6d6 d'un site de liaison ribosomique suppose. Le polypeptide cod6, 
compost de 631 aminoacides, a une masse mol6culaire calculde de 68 577 Da. 
la structure de domaines de la proi^ine est representee sur les figures 1 et 3. 
Un peptide signal suppose de 26 residus aminoacide est localiis6 h I'extr^mite 
NH2-terminaIe du polypeptide (36). Des alignements avec d'autres prot^ines 
indiquent la presence de trois regions disiinctes dans SdbA. La region 
N-terminale. compos6e de 156 residus aminoacide. est semblable aux 
segments N-terminaux r6p6tes de OlpB (denomm^ pr^c^demment ORRp) et 
0RF2p de C. thermocellum. deux polypeptides dont les genes sont localises 
immidiaiement en aval de cipA (9) ( figure 4). Un espaceur de 56 residus 
nche en Pro/Thr/Ser. s^pare cette region du reste de la protSine. U region 
centrale est compos^e de 215 aminoacides, avec de nombreux r6sidus Lys. 
Cette region comprend une courte sequence d'aminoacides semblable a un 
segment present dans les proteines M de Streptococcus pyogenes (figure 5) 
La region COOH-terminale est composee de ces segments r€p€u\s qui sont tr^s 
semblables aux segments d^nomm^s SLH (S-layer homologous = homologues 
a la couche S). presents dans plusieurs proteines localis^es sur la surface 
cellulaire de diverses bact^ries (9, 18) (figure 6). 

^' I dent i Hcation du domainp responsnhlP in fu...;^n t1i. rinnni,i, 

dockerin*. rjp^ 

Afin d'identifier le domaine responsable de la fixation du 
domaine dockerine de CipA. on a compart les propri6t6s de liaison de 
polypeptides d6riv6s de SdbA. Le gene sdbA et des sous-fragments 
appropriis ont 6t6 fusionn^s avec le vecteur d'expression p(3E-30 codant 
pour HiSfi. et les polypeptides correspondants ont et6 purifies par 
chromatographie d'affinit6 k Ni (24). Les masses moleculaires apparentes de 
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la prot6ine SdbA intacte et du fragment contenant les regions centrale et 
C-terminale sont de 60 kDa et 36 kDa. respectivement. en accord avec les 
masses pr6dites k partir de la sequence (figure 7A). U masse moleculaire 
apparente du domaine NHj-terminal etait egale a 35 kDa, et etait superieure 
d. la masse moleculaire calcuI6e a partir de la sequence (22 715 Da).- Toutefois, 
le fragment comprend le segment de jonction riche en residus Pro. ce qui 
peut expliquer une lente migration dans la SDS-PAGE (10). 1-es preparations 
de SdbA Intacte et du polypeptide COOH-terminal contenaient I'une et I'autre 
un second polypeptide de 24 kDa. Dans les deux cas. la sequence 
NH2-terminale de ce polypeptide est SKYAVSY, ce qui indique qu'elle est 
d6riv6e de la region COOH-ierminale contenant les segments SLH r^pdtes de 
SdbA. Etant donn^ que les segments SLH repet6s ne contiennent pas de 
groupement de rdsidus histidine. le fragment COOH-terminal est 
probablement 116 aux polypeptides intacts. En effet, Haiti raippon6 que des 
polypeptides contenant des segments SLH reputes s'auto-associent (17). 

L'analyse du criblage de colonies, en utilisant comme sonde 
CelC-DsCipA marquee au i25i. a confirm^ que le produit du g^ne sdbA se 
fixait au domaine dockerine de CipA (figure 7B). La fixation au fragment 
NH2-termlnal est moins intense, mais decelable. On n'a pas pu d^celer de 
fixation au fragment C-terminal. Etant donne que la region NHj-ierminale 
de SdbA est semblable aux segments NH2-terminaux repeteis d'OlpB. on a 
controls si CelC-DsCipA se fixait a MalE-ORFlp-N. une proteine chim6re 
comprenant le premier segment NHz-terminal repete d'OlpB fusionn6 A la 
proteine de fixation du maltose. MalE (17). U colonne 5 de la figure 78 
indique que MalE-ORFlp-N a ete marquee. Aucune fixation n'a ete observSe 
avec MalE-ORFlp-C, qui consiste en les segments SLH C-terminaux d'OlpB 
fusionnes k MalE Ni SdbA, ni ORFIp-N. ni ORHp-C n'ont 6te marquees apr^s 
incubation avec CelC-DsCelD marquee au i25i (donnees non representees). 

Des proteines portant des domaines dockerine peuvent etre 
marquees au 125I et utilisees comme sondes pour la detection de proteines 
contenant des domaines cohesine compiementaires (29. 32). >Unsi. on peut 
isoler des clones exprimant des polypeptides contenant des domaines 
cohesine, et on peut identifier les domaines cohesine (8). Dans la presente 
invention, on a applique la mSme strategic pour doner le gene sdbA et pour 
identifier le domaine cohesine responsable de la fixation du domaine 
dockerine de CipA. On a obtenu un seul gene. II se peut que d'autres genes 
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codant pour des prot^ines ayant des proprietes similaires aient echapp^ a la 
detection, en raison d'une absence d'expression spontanea. 

Sur les trois polypeptides, pl70, pll6 et p60, qui se sont 
pr6c6demment r6v616s fixer le domaine dockerine de CipA (29), pl70 et pll6 
sont trop longs pour etre cod6s par sdbA, meme eh tenant compte de 
modifications post-traductionnelles, telles qu'une glycosylation. Le 
polypeptide p60 se r^vfele le seul candidal possible. 

La figure 7 indique que le domaine cohesine se trouve dans la 
region NH2-proximale de SdbA. Le signal d^tecte avec le fragment 
NH2-terminal est plus faible qu'avec la proteine entiere; toutefois, on n'a pu 
d^tecter aucun signal en utilisant une quantity semblable du fragment 
COOH-terminaL Le fait de ironquer SdbA peut avoir affecte I'affinit^ ou la 
stability du polypeptide NH2-ierminal r6siduel. Ou encore, la fixation k la 
nitrocellulose peut alt^rer la conformation du domaine cohesine, tandis que 
la fixation de la proteine intacte i la membrane peut etre m6di6e par des 
regions du polypeptide non requises pour la fixation de la sonde marquee, 

Contrairement au domaine dockerine de CipA, qui est 
clairement apparent^ aux domaines dockerine presents dans les sous-unites 
catalytiques, le domaine cohesine de SdbA ne pr(5senie pas de similarity 
6vidente avec les domaines cohesine de CipA et OlpA. Toutefois, il est 
semblable aux segments reputes localises a Textremite NH2-terminale de 
OlpB et ORF2p (9). En effet, CelC-DsCipA marquee au I25i se fixe 
sp6cifiquement au premier segment repaid NH2-terminal d'OlpB. Ainsi, les 
domaines NH2-terminaux de SdbA, OIpB et tres probablement 0RF2p 
representent un nouveau type de domaine cohesine. C'est pourquoi, selon la 
pr^sente invention on les denomme "domaines cohesine de type H", et 
"domaines cohesine de type 1" les domaines cohesine rencontres dans CipA 
et k r extremity NH2-terminale d'OlpA. 

Les trois prot^ines OlpB, 0RF2p et SdbA, qui sont connues 
comme contenant les domaines cohesine de type II, portent egalement des 
segments reputes SLH. Dans tous les cas etudies jusqu'a present, les segments 
reputes SLH se rencontrent dans des prot^ines qui sont associ^es k la surface 
cellulaire de bacteries, et des preuves biochimiques indiquent qu'ils se 
fixent k des composants de Tenveloppe cellulaire (17). Ainsi, SdbA peut etre 
localisee sur la surface cellulaire, au meme titre qu'OlpA (28) et OIpB (17). La 
similarite entre la region centrale de SdbA et une region presente dans les 
proteines M de Stret>tococcus vient k Tappui de cette hypoihese. 11 a ete 
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suppose que dans les prot^ines M, cette region peut entrer en interaction 
avec des glucides de la paroi cellulaire (34). Prises dans leur ensemble, ces 
considerations suggerent que SdbA, OlpB et eventuellement C»RF2p sont des 
composants de I'enveloppe cellulaire qui sont impliques dans la fixation de 
S cellulosomes k la surface cellulaire. 

Mors que SdbA ne porte qu'un seul domaine coh^sine, ces 
domaines sont rep6t6s deux fois dans 0RF2p et quatre fois dans OlpB. Ainsi, 
jusqu*^ quatre molecules de CipA portant des sous-unites catalytiques fix6es 
pourraient 6tre groupies autour d'une molecule d'OlpB. Toutefois, ce fait 
10 seul ne suffit pas pour rendre compte de la formation d'agregats tres 
volumineux (polycellulosomes) allant jusqu'4 80 MDa, comme rapport^ dans 
la reference (5). De tels agregats doivent impliquer d'autres interactions, 
6ventuellement au niveau des segments r6p6t6s SLH, qui sont reconnus se 
lier entre eux (17). 
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TABLEAU 1 
Souches bacteriennes et plasmides 



Souches et plasmides Caracteres significatifs 



Souches 



Escherichia cnW 



Source de 
Reference 



TGI [A(lac-pro) thi supE hsdD5/ (12) 

F tra-36proA+B+lacIqlacZAM15] 

Ml 5 {pREP4) (7,35). 

n^icessaire 
QJAexpress® 
QIAGEN Inc. 



Clostridium thermorelhiir^ 
NCIB 10682 



Plasmides 

pUC18 
pBCSK- 

pQE-30 
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LISTE DE SEQUENCES 



(1) INFORMATIONS GENERALES: 

(i) OEPOSANT; 

(A) NOM: INSTITUT PASTEUR 

(B) RUE: 28 Rue du Docteur Roux 
(O VILLE: PARIS 

(E) PAYS: FRANCE 

(F) CODE POSTAL: 75724 CEDEX 15 

Cii) TITRE DE L' INVENnON: "POLYPEPTIDE CCMPORTANT UN DOMAINE 
COHESINE, COMPOSmON ENZYMATIQUE EN CCMPORTANT ET FRAGME NTS D'AON 
CODANT POUR CES POLYPEPTIDES" 

(iti) NOMBRE DE SEQUENCES: 4 

Civ) FORME DECHIFFRABLE PAR ORDINATEUR: 
CA) TYPE DE SUPPORT: Floppy disk 
(B) ORDINATEUR: IBM PC compatible 
CC) SYSTEME D' EXPLOITATION: PC-OOS/MS-DOS 
(D) LOGICIEL: Patentin Release #1.0, Version #1.30 (OEB) 



(2) INFORMATIONS POUR LA SEQ ID NO: 1: 

Ci) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 1893 paires de bases 

(B) TYPE: nucleotide 

CC) NOMBRE DE BRINS: simple 

Cii) TYPE DE MOLECULE: ADN 



Cix) CARACTERISTIQUE: 

CA) NOM/CLE: SdbA de Clostridium thermocellum 

CB) EMPLACEMENT:!.. 1893 



Cxi) DESCRIPnON DE LA SEQUENCE: SEQ ID NO: 1: 

ATG A6G AAG AAA AAA AGA TTA ATA TCA TTA CTG CTT GCG GTT TTT ATC 48 

Met Arg Lys Lys Lys Arg Leu He Ser Leu Leu Leu Ala Vol Phe He 

1 5 10 15 

GCC GTT 6CA TGT CTG CCG GCG GGA ATT 6CA AGG Ga GAT AAA GCC TCG 96 

Ala Vol Ala Cys Leu Pro Ala Gly He Ala Arg Ala Asp Lys Ala Ser 
20 25 30 
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AGC ATT GAG CTT AAG TTT GAC CGC AAT AAG GGA GAA GTT GGA GAT ATA 144 
Ser lie Glu Leu Lys Phe Asp Arg Asn Lys Gly Glu Val Gly Asp lie 
35 40 45 

CTT ATT GGT ACC GTA AGG ATA AAC AAT ATC AAG AAT TTC GCA GGA TTT 192 
Leu He Gly Thr Val Arg He Asn Asn He Lys Asn Phe Ala Gly Phe 
50 55 60 

CAG GTA AAC ATT GTA TAT GAT CCA AAA GTC TTA ATG GCT GTT GAC CCT 240 
Gin Vol Asn He Vol Tyr Asp Pro Lys Vol Leu Met Ala Vol Asp Pro 
€5 70 75 80 

GAA ACG GG6 AAA GAA TTT ACT TCT TCA ACA TTT CCG CCA GGA CGC ACT 288 
Glu Thr Gly Lys Glu Phe Thr Ser Ser Thr Phe Pro Pro Gly Arg Thr 
85 90 95 

GTA CTG AAA AAC AAT GCT TAC GGC CCA ATA CAG ATT GCG GAC AAT GAT 336 
Vol Leu Lys Asn Asn Ala Tyr Gly Pro He Gin He Ala Asp Asn Asp 
100 105 110 

CCG GAA AAA GGG ATA CTG AAC TTC GCG CTT GCA TAT TCA TAT ATT GCG 384 
Pro Glu Lys Gly He Leu Asn Phe Ala Leu Ala Tyr Ser Tyr He Ala 
115 120 125 

GGA TAC AAA GAA ACA GGA GTA GCG GAG GAA AGC GGC ATA ATT GCG AAA 432 
Gly Tyr Lys Glu Thr Gly Val Ala Glu Glu Ser Gly He He Ala Lys 
130 135 140 

ATT GGA TTT AAA ATA CTC CAG AAA AAG AGC ACT GCC GTA AAA TTC CAG 480 
He Gly Phe Lys He Leu Gin Lys Lys Ser Thr Ala Val Lys Phe Gin 
1^5 150 155 

GAT ACA TTA AGC ATG CCC GGA GCT ATT TCG GGA ACA CAG CTG TTT GAC 528 
Asp Thr Leu Ser Met Pro Gly Ala He Ser Gly Thr Gin Leu Phe Asp 
165 170 175 

TGG GAC GGA GAA GTT ATT ACC GGA TAT GAG GTA ATA CAG CCG GAT GTG 576 
Trp Asp Gly Glu Vol He Thr Gly Tyr Glu Val He Gin Pro Asp Val 
180 185 190 

CTG AGT TTG GGT GAC GAG CCT TAT GAG ACA CCG GGA ACG GAT ATT CCG 624 
Leu Ser Leu Gly Asp Glu Pro Tyr Glu Thr Pro Gly Thr Asp He Pro 
195 200 205 

ATA TCC GAC AAT CCG GCA GCA ACT CCG TCA TCC ACG CCG TCA GTT ACT 672 
He Ser Asp Asn Pro Ala Ala Thr Pro Ser Ser Thr Pro Ser Vol Thr 
210 215 220 

CCT TCA CCG GAA GTT AAA CCG ACT CAG ACG CCT TCG CCT GCA GAA AAT 720 
Pro Ser Pro Glu Vol Lys Pro Thr Gin Thr Pro Ser Pro Ala Glu Asn 
225 230 235 240 
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TCT GCA AAA GTG GAG CTT GAA CCT GTG TTG GAT AAT GCA ACA GGA GAA 
Ser Ala Lys Vol Glu Leu Glu Pro Vol Leu Asp Asn Ala Thr Gly Gllu 
245 250 255 

GCA AAG GCG GCA ATA GAT GAA GAA AAA TTA AAC AAG GCT CTT GAT G/iA 
Ala Lys Ala Ala He Asp Glu Glu Lys Leu Asn Lys Ala Leu Asp Glu 
260 265 270 

GCG AAA AAA TC6 GAA GAT GAC AAA CTT GTG GAA CTT AAC ATA AAG AAG 
Ala Lys Lys Ser Glu Asp Asp Lys Leu Vol Glu Leu Asn He Lys Lvs 
275 280 285 

GTT GAA AAT GCC GAT GCT TAC ATA CAA CAG CTT CCG GCG AAA TTC CTG 
Vol Glu Asn Alo Asp Ala Tyr He Gin Gin Leu Pro Alo Lys Phe Leu 
290 295 300 

ATA AAA AGT GAC GCC GAA TAT AAG CTG AGA ATA GCT ACA GAG CAG GGi\ 
lie Lys Ser Asp Ala Glu Tyr Lys Leu Arg He Ala Thr Glu Gin Gly 

310 315 32ij 

ATT ATA GAA GTA CCG GCC AAC ATG CTG AAT ACT GCG GAT ATT TCA AA<; 
He He Glu Vol Pro Ala Asn Met Leu Asn Thr Ala Asp He Ser Lys 
325 330 335 

CTT GTA AAA AAT GAC TCC GTT GTT GAA TfC GTC ATA AGA AAA GTA AAA 
Leu Vol Lys Asn Asp Ser Vol Vol Glu Phe Vol He Arg Lys Vol Lvs 
3« 345 350 

GTC GAT GAA CTT G6T GCA GAG CTC AAA GAG AAG ATA GGC AAC AGG CCG 
Vol Asp Glu Leu Gly Ala Glu Leu Lys Glu Lys He Gly Asn Arg Pro 
355 360 365 

GTG ATT GAC ATA AGC GTG GTT GTT GAC GGC AAA AAA GTT GAA TGG AGC 
Vol He Asp He Ser Vol Vol Vol Asp Gly Lys Lys Vol Glu Trp Ser 
370 375 380 

AAT TAC AAA GCC AAG GTT AAA ATA TCA ATT CCT TAC AAG CCT GAT GCA 
Asn Tyr Lys Ala Lys Vol Lys He Ser He Pro Tyr Lys Pro Asp Ala 

390 395 400 

AAA GAG CTG GAG AAC CAC GAG CAT ATT GTT GTA CTC CAT ATT GAT GAC 
Lys Glu Leu Glu Asn His Glu His He Vol Vol Leu His He Asp Asp 
405 410 415 

GCC GGC AAG GCA GTT TCC GTA CCC AGC GGA AAA TAT GAA CCT TCT TTG 
Ala Gly Lys Ala Vol Ser Vol Pro Ser Gly Lys Tyr Glu Pro Ser Leu 
420 425 430 

GGC GTC GTT ACG TTT GAG ACG AAT CAT TTA AGC AAG TAT GCG GTT TCA 
Gly Vol Vol Thr Phe Glu Thr Asn His Leu Ser Lys Tyr Ala Vol Ser 
435 440 



768 



816 



864 



912 



960 



1008 



1056 



1104 



1152 



1200 



1248 



1296 



1344 
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TAT GTT TAC AAG ACT TTC GCG GAT ATT GGT TCA TAT GCC TGG GCT AA/» 1392 
Tyr Val Tyr Lys Thr Phe Ala Asp He Gly Ser Tyr Ala Trp Ala Ly:; 
450 455 460 

AAG CAG ATA GAG GTT TTG GCT TCC AAA GGA GTA ATT AAC GGT ACA TCC 1440 
Lys Gin He Glu Vol Leu Ala Ser Lys Gly Vol He Asn Gly Thr Ser 
465 470 475 486' 

GAT ACC ACT TTT ACG CCC CAG GCA GAC ATA ACA AGG GCG GAT TTC ATC 1488 
Asp Thr Thr Phe Thr Pro Gin Ala Asp He Thr Arg Ala Asp Phe Met 
485 490 495 

ATA CTT CTT GTA AAG GCA CTG GGA TTG ACT GCC GAG GTT ACT TCC AAT 1536 
He Leu Leu Vol Lys Ala Leu Gly Leu Thr Ala Glu Val Thr Ser Asn 
500 505 510 

TTT GAT GAT GTG TCC GAA AAA GAC TAC TAT TAT GAA TAC GTG GGA ATT 1584 
Phe Asp Asp Vol Ser Glu Lys Asp Tyr Tyr Tyr Glu Tyr Vol Gly He 
515 520 525 

GCA AAA GAG CTT GGA ATT ACG AQ GGA GTC GGA AAC AAC AAG TTC AAT 1632 
Ala Lys Glu Leu Gly He Thr Thr Gly Vol Gly Asn Asn Lys Phe Asn 
530 535 540 

CCG AAA GCC AAA ATT ACA AGA CAG GAT ATG ATG GTA CTT ACA ACA AAT 1680 
Pro Lys Ala Lys He Thr Arg Gin Asp Met Met Vol Leu Thr Thr Asn 
545 550 555 560 

GCT CTC AGG ATT GCA GGA AAA ATA TCG AGC ACA GGA ACC CGC GCT GAT 1728 
Ala Leu Arg He Ala Gly Lys He Ser Ser Thr Gly Thr Arg Ala Asp 
565 570 575 

GTT GAA AGA TTT TCG GAC AAG GAC CAG ATA GCT TCA TAT GCG GTT GAA 1776 
Vol Glu Arg Phe Ser Asp Lys Asp Gin He Ala Ser Tyr Ala Val Glu 
580 585 590 

GGC GTT GCA ACC TTG GTA AAA GAA GGT ATT GTA GTG GGA AGC GGC GAT 1824 
Gly Vol Ala Thr Leu Vol Lys Glu Gly He Vol Vol Gly Ser Gly Asp 
595 600 605 

ATT ATA AAT CCA AGG GGA AAT Ga TCA AGA GCC GAA CTT GCA GCA ATC 1872 
He He Asn Pro Arg Gly Asn Ala Ser Arg Ala Glu Leu Ala Ala He 
610 615 620 



ATA TAC AAG ATT TAC TAC AAG 
He Tyr Lys He Tyr Tyr Lys 
625 630 



1893 
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C3) INFORMATIONS POUR LA SEQ ID NO: 2: 

(i) CARACTERISHQUES OE LA SEQUENCE: 

(A) LONGUEUR: 4992 paires de bases 

(B) TYPE: nucleotide 

CC) NOMBRE DE BRINS: simple 

Cii) TYPE OE MOLECULE: ADN 



Cix) CARACTERISTIQUE: 

(A) NOM/CLE: OlpB de Clostridium thermocellum 

(B) EMPLACEMENT:!.. 4992 



Cxi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 2: 

ATG AAA CGA AAA AAT AAA GTA TTA TCA ATT TTG TTA ACT CTG CTG CTA 48 
Met Lys Arg Lys Asn Lys Vol Leu Ser lie Leu Leu Thr Leu Leu Leu 
15 10 15 

ATA ATC TCT ACC ACA TCC GTA AAC ATG TCT TTT GCT GAA GCA ACT CCA 96 
He He Ser Thr Thr Ser Val Asn Met Ser Phe Ala Glu Ala Thr Pro 
20 25 30 

ACT ATT GAA ATC GTT CTT GAT AAA ACT GAA GTC CAT GTA GGA GAT OTA 144 
Ser He Glu Met Val Leu Asp Lys Thr Glu Vol His Vol Gly Asp Vol 
35 40 45 

ATA ACG GCC ACA ATA AAA GTC AAT AAC ATT AGA AAA TTG 6CG GGA TAT 192 
He Thr Ala Thr He Lys Val Asn Asn He Arg Lys Leu Ala Gly Tyr 
50 55 60 

CAG CTA AAT ATC AAA TTT GAC CCT GAA GTT TTA CAG CCG GTA GAC CCT 240 
Gin Leu Asn He Lys Phe Asp Pro Glu Vol Leu Gin Pro Vol Asp Pro 
65 70 75 8(5 

GCA ACA GGA GAG GAA TTT ACT GAT AAG TCC ATG CCG GTA AAT AGG GTf 288 
Ala Thr Gly Glu Glu Phe Thr Asp Lys Ser Met Pro Vol Asn Arg Va'L 
85 90 95 

TTG CTG ACA AAC AGC AAA TAT GGA CCT ACT CCT GTG GCG GGT AAC GAT 336 
Leu Leu Thr Asn Ser Lys Tyr Gly Pro Thr Pro Vol Ala Gly Asn Asp 
100 105 110 

ATA AAG TCA GGA ATT ATT AAT TTT GCT ACG GGA TAT AAC AAT TTA ACI\. 384 
He Lys Ser Gly He He Asn Phe Ala Thr Gly Tyr Asn Asn Leu Thr 
115 120 125 
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GCG TAC AAA TCC AGC GGA ATA GAC GAA CAT ACA GGA ATA ATA GGA GAG 432 

Ala Tyr Lys Ser Ser Gly lie Asp Glu His Thr Gly He He Gly Glu 

130 135 140 

ATT GGT TTT AAA GTT TTA AAG AAA CAA AAT ACG TCT ATT AGG TTT GAA 480 
He Gly Phe Lys Vol Leu Lys Lys Gin Asn Thr Ser He Arg Phe Glu 
145 150 155 160 

GAT ACA TTA TCG ATG CCC GGG GCA ATA TCG GGA ACA AGT TTG TTT GAC 528 
Asp Thr Leu Ser Met Pro Gly Ala He Ser Gly Thr Ser Leu Phe Asp 
165 170 175 

TGG GAT GCA GAA ACT ATA ACA GGA TAT GAG GTA ATA CAG CCG GAT CTT 576 
Trp Asp Ala Glu Thr He Thr Gly Tyr Glu Vol He Gin Pro Asp Leu 
180 185 190 

ATA GTT GTA GAG GCA GAA CCG TTA AAA GAC GCC AGC GTG GCT CTG GAA 624 
He Val Vol Glu Ala Glu Pro Leu Lys Asp Ala Ser Val Ala Leu Glu 
195 200 205 

CTG GAT AAG ACG AAG GTA AAA GTA GGG GAC ATA ATA ACA GCG ACG ATA 672 
Leu Asp Lys Thr Lys Vol Lys Val Gly Asp He He Thr Ala Thr He 
210 215 220 

AAG ATA GAG AAC ATG AAG AAT TTT GCA GGG TAC CAG TTG AAT ATC AAG 720 
Lys He Glu Asn Met Lys Asn Phe Ala Gly Tyr Gin Leu Asn He Lys 
225 230 235 240 

TAT GAC CCG ACC ATG TTG GAG GCA ATA GAA CTG GAG ACA GGA AGT GCG 768 
Tyr Asp Pro Thr Met Leu Glu Ala He Glu Leu Glu Thr Gly Ser Ala 
245 250 255 

ATA GCG AAG AGG ACA TGG CCG GTT ACA GGA GGT ACT GTT CTG CAA AGT 816 
He Ala Lys Arg Thr Trp Pro Val Thr Gly Gly Thr Val Leu Gin Ser 
260 265 270 

GAC AAT TAT GGA AAG ACG ACT GCG GTA GCG AAT GAT GTA GGA GCA GGT 864 
Asp Asn Tyr Gly Lys Thr Thr Ala Vol Ala Asn Asp Vol Gly Ala Gly 
275 280 285 

ATA ATA AAC TTT GCT GAG GCA TAC TCG AAC CTT ACC AAA TAC AGA GAG 912 
He He Asn Phe Ala Glu Ala Tyr Ser Asn Leu Thr Lys Tyr Arg Glu 
290 295 300 

ACA GGT GTG GCA GAG GAG ACA GGT ATA ATA GGA AAG ATA GGC TTC AGA 960 
Thr Gly Vol Ala Glu Glu Thr Gly He He Gly Lys He Gly Phe Arg 
305 310 315 320 

GTA CTG AAG GCA GGA AGT ACG GCT ATA AGA TTT GAG GAT ACG ACA GCG 1008 
Val Leu Lys Ala Gly Ser Thr Ala He Arg Phe Glu Asp Thr Thr Ala 
325 330 335 
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ATG CCG GGA GCA ATA GAA GGA ACA TAC ATG TTC GAC TGG TAT GGC GAG 1056 
Met Pro Gly Ala He Glu Gly Thr Tyr Met Phe Asp Trp Tyr Gly Glu 
349 345 350 

AAC ATC AAA GGG TAT AGC GTA GTA CAG CCT GGG GAA ATA GTG GCA GAA 1104 
Asn He Lys Gly Tyr Ser Vol Vol Gin Pro Gly Glu He Vol Ala Glu 
355 360 365 

GGA GAA GAG CCG GGT GAA GAG CCG ACA GAA GAG CCT GTA CCG ACA GAG 1152 
Gly Glu Glu Pro Gly Glu Glu Pro Thr Glu Glu Pro Vol Pro Thr Glu 
370 375 380 

ACA CCA GTA GAT CCC ACA CCG ACA GTG ACA GAA GAG CCT GTA CCT TCA 1200 
Thr Pro Vol Asp Pro Thr Pro Thr Vol Thr Glu Glu Pro Vol Pro Ser 
385 390 395 400 

GAG CTT CCA GAT TCC TAT GTA ATA ATG GAA CTG GAT AA6 ACG AAG GTA 1248 
Glu Leu Pro Asp Ser Tyr Vol He Met Glu Leu Asp Lys Thr Lys Val 
405 410 415 

AAA GTA GGG GAC ATA ATA ACA GCG ACG ATA AAG ATA GAG AAC ATG AAG 1296 
Lys Val Gly Asp He He Thr Ala Thr He Lys He Glu Asn Met Lys 
420 425 430 

AAT TTT GCA GCG TAC CAG TTG AAT ATC AAG TAT GAC CCG ACC ATG TTG 1344 
Asn Phe Ala Gly Tyr Gin Leu Asn He Lys Tyr Asp Pro Thr Met Leu 
435 440 445 

GAG GCA ATA GAA CTG GAG ACA GGA AGT GCG ATA GCG AAG AGG ACA TGG 1392 
Glu Ala He Glu Leu Glu Thr Gly Ser Ala He Ala Lys Arg Thr Trp 
450 455 460 

CCG GTT ACA GGA GGT ACT GTT CTG CAA AGT GAC AAT TAT GGA AAG ACG 1440 
Pro Vol Thr Gly Gly Thr Vol Leu Gin Ser Asp Asn Tyr Gly Lys Thr 
465 470 475 480 

ACT GCG GTA GCG AAT GAT GTA GGA GCA GGT ATA ATA AAC TTT GCT GAG 1488 
Thr Ala Vol Ala Asn Asp Vol Gly Ala Gly He He Asn Phe Ala Glu 
485 490 495 

GCA TAC TCG AAC CTT ACC AAA TAC AGA GAG ACA GGT GTG GCA GAG GAG 1536 
Ala Tyr Ser Asn Leu Thr Lys Tyr Arg Glu Thr Gly Vol Ala Glu Glu 
500 505 510 

ACA GGT ATA ATA GGA AAG ATA GGC TTC AGA GTA CTG AAG GCA GGA AGT 1584 
Thr Gly He He Gly Lys He Gly Phe Arg Val Leu Lys Ala Gly Ser 
515 520 525 

ACG GCT ATA AGA TTT GAG GAT ACG ACA GCG ATG CCG GGA GCA ATA GAA 1632 
Thr Ala He Arg Phe Glu Asp Thr Thr Ala Met Pro Gly Ala He Glu 
530 535 540 
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cfJ J*^ S^J H.^ '^^^ ™^ AAA GGG TAT A(;C 

Gly Thr Tyr Met Phe Asp Trp Tyr Gly Glu Asn He Lys Gly Tyr Ser 

555 5(10 

vll r^^ 5?* ^'^^ ^"^^ ^" GAA GAG CCG ACA GAA 

Vol Vol Gin Pro Gly Glu He Vol Ala Glu Gly Glu Glu Pro Thr Glu 
565 570 

GAG CCT GTA CCG ACA GAG ACA CCA GTA GAT CCC ACA CCC Art rrr ArA 
Pro vol PT, Th. C,„ Thr Pro Vol P^^ '^r p" '^r v"f ?J 

585 590 

GAA GAG CCT GTA CCT TCA GAG CTT CCA GAT TCC TAT CTC ata Axr » 
Clu Clu P^ ,a, P^ ser Cl„ Leu Pro Asp' S 1" v'lj SIJ c" 
595 600 605 

TTG GAT AAG AC6 AAG GTA AAA GAA GGC GAC GTA ATA ATA GCA ACA ATii 
Leu Asp Lys Thr Lys Vol Lys Glu Gly Asp Vol Ue He Al" ^h^ lit 

615 620 

Irt 51? ^ TAT ATA GGC ATC AAA 

Arg Vol Asn Asn He Lys Asn Leu Ala Gly Tyr Gin He Gly He Lys 

^30 635 640 

Itl It^ f** f TTT AAT ATC GAG ACA GGG GAC CCA 

Tyr Asp Pro Lys Vol Leu Glu Ala Phe Asn He Glu Thr Gly Asp Pro 
645 650 655 

ATA GAT GAA GGA ACA TGG CCT GCA GTA GGG GGA ACA ATA CTG AAG AAT 
He Asp Glu Gly Thr Trp Pro Ala Val Gly Gly Thr He Leu Lys ^sn 
660 665 670 

tit ^TA GCA ATA AAC AAT GTA TCT AAA GGA 

Arg Asp Tyr Leu Pro Thr Gly Val Ala He Asn Asn Vol Ser Lys Gly 
675 680 685 

ATA CTG AAT TTT GCT GCT TAT TAC GTT TAC TTC GAT GAC TAT AGA GAG 
He Leu Asn Phe Ala Ala Tyr Tyr Vol Tyr Phe Asp Asp Jyr Irg ctu 

cfS nt *^ ATA GGA AAT ATA GGC TTT AGA 

Glu Gly Lys Ser Glu Asp Thr Gly He He Gly Asn He Gly Phe Arg 

715 720 

SI? f*^ J," Jf* ATA AGA TTT GAA GAG CTG GAG TCA 

Val Leu Lys Ala Glu Asp Thr Thr He Arg Phe Glu Glu Leu Glu Ser 
725 730 735 

tl* 111 JT* TAT ATG TTG GAT TGG TAT CTT AAT 

Met Pro Gly Ser He Asp Gly Thr Tyr Met Leu Asp Trp Tyr Leu Asn 

745 750 
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AGA ATC TCT GGC TAT CTA GTA ATA CAA CCG GCG CCT ATA AAG GCG GCT 
Arg He Ser Gly Tyr Vol Vol He Gin Pro Ala Pro He Lys Ala Ala 
755 760 765 

ACT 6AC GAA CCA ATA CCA ACG GAT AQ CCA TCA GAT GAA CCG ACA CCG 
Ser Asp Glu Pro He Pro Thr Asp Thr Pro Ser Asp Glu Pro Thr Pro 
770 775 780 

TCA GAC GAG CCA ACG CCA TCT GAC GAA CCG ACA CCG TCT GAT GAG CC\ 
Ser Asp Glu Pro Thr Pro Ser Asp Glu Pro Thr Pro Ser Asp Glu Pro 
785 790 795 8013 

ACA CCG TCA GAT GAA CCG ACT CCG TCA GAG ACA CCT GAG GAG CCG MA 
Thr Pro Ser Asp Glu Pro Thr Pro Ser Glu Thr Pro Glu Glu Pro Ho 
805 810 815 

CCG ACG GAT ACA CCA TCA GAT GAA CCG ACA CCA TCA GAC GAG CCA ACG 
Pro Thr Asp Thr Pro Ser Asp Glu Pro Thr Pro Ser Asp Glu Pro Thr' 
820 825 830 

CCA TCT GAT GAA CCA ACA CCG TCT GAT GAG CCA ACA CCA TCT GAT GAA 
Pro Ser Asp Glu Pro Thr Pro Ser Asp Glu Pro Thr Pro Ser Asp Glu 
835 840 845 

CCG ACT CCG TCA GAG ACA CCT GAG GAG CCG ATA CCG ACG GAT ACA CCA 
Pro Thr Pro Ser Glu Thr Pro Glu Glu Pro He Pro Thr Asp Thr Pro 
850 855 860 

TCA GAT GAA CCG ACA CCG TCA GAC GAG CCA ACG CCA TCT GAC GAA CCA 
Ser Asp Glu Pro Thr Pro Ser Asp Glu Pro Thr Pro Ser Asp Glu Pro 
865 870 875 880 

ACA CCG TCT GAT GAG CCA ACA CCG TCA GAT GAA CCG ACT CCG TCA GAG 
Thr Pro Ser Asp Glu Pro Thr Pro Ser Asp Glu Pro Thr Pro Ser Glu 
885 890 895 

ACA CCT GAG GAG CCG ATA CCG ACG GAT ACA CCA TCA GAT GAA CCG ACA 
Thr Pro Glu Glu Pro He Pro Thr Asp Thr Pro Ser Asp Glu Pro Thr 
900 905 910 

CCG TCA GAC GAG CCA ACG CCA TCT GAC GAA CCA ACA CCG TCT GAT GAG 
Pro Ser Asp Glu Pro Thr Pro Ser Asp Glu Pro Thr Pro Ser Asp Glu 
915 920 925 

CCA ACA CCG TCA GAT GAA CCG ACT CCG TCA GAG ACA CCT GAG GAG CCG 
Pro Thr Pro Ser Asp Glu Pro Thr Pro Ser Glu Thr Pro Glu Glu Pro 
930 935 940 

ATA CCG ACG GAT Aa CCA TCA GAT GAA CCG ACA CCG TCA GAC GAG CCG 
He Pro Thr Asp Thr Pro Ser Asp Glu Pro Thr Pro Ser Asp Glu Pro 

950 955 960 
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ACA CCG TCA GAT GAA CCG ACT CCG TCA GAG ACA CCT GAG GAG CCG A7A 
Thr Pro Ser Asp Glu Pro Thr Pro Ser Glu Thr Pro GXu gJu Pro He 

1175 1180 

CCG ACG GAT ACA CCA TCA GAT GAA CCG ACA CCA TCA GAC GAG CCt tcr 
Pro THr Asp Thr Pro Ser Asp Glu Pro Thr Pro Se" 1% "^l 

1190 1195 12,30 

CCA TCT GAT GAA CCA ACA CCG TCT GAT GAG CCA ACA CCA TCT GAT eta 
Pro Ser Asp Glu Pro Thr Pro Ser Asp Glu Pro ^h" p" Ser A^' Gul 
1205 1210 J215 

CCG ACT CCG TCA GAG ACA CCT GAG GAG CCG ATA CCG ACG fAT Ar* rr. 
Pro Thr Pro S.r Clu ll,r Pro Clu Clu Pro lU p" Z ^ p" 

1225 1230 

ja GAT GAA CCG ACA CCG TCA GAC GAG CCA ACG CCA TCT TAf taa rrA 
ser Asp Clu Pro Thr Pro Ser Asp Pro ?" Z Ur a"p Z Z 

1240 1245 

ACA CCG TCT GAT GAG CQ ACA CCG TCA GAT GAA CCG ACT CCG TCA GAC 
Thr Pro ser Asp Glu Pro l^r Pro Ser Asp Glu Pro Pro I' gJu' 

1255 1260 

S/r^ Z Z %l '^Z r A- Z A- ot Z 

^2'® 1275 128C, 

CCG TCA GAC GAG CCG ACA CCA TCT GAC GAA CCA ACA CCG TCA GAr fir 
Pro Ser Asp Glu Pro Thr Pro Ser Asp Glu Pro j',r Prl llr ^ gJu 
1285 1290 1295 

CCA ACG CCA TCT GAC GAA CCG ACA CCG TCT GAT GAG CCA AfA rrA tct 
Pro Thr Pro Ser Asp Clu Pro Thr Pro S.r AsJ Z Z Ur 

IMS i3ie 

CAT CAA CCC ACT CCC TCA CAC ACA Ca CAC CAC CCC ATA rrr irr r.r 
ASP Clu P™ Thr Pro Ser Clu Thr Pro Clu C.S Z "t Z ?Sr° a"' 
■^5" 1320 1325 

ACA CCA TCA GAT GAA CCG ACA CCG TCA GAC GAG CCG ACA CCA TCT CAr 
Thr Pro Ser Asp Glu Pro Thr Pro Ser Asp Glu Pro jH'r Pr'o ler A^sp 

1335 1340 

f^^ J? ^" ^^f" A<^G CCA TCT GAC GAA CCG ACA CCf 

Glu^Pro Thr Pro Ser Asp Glu Pro Thr Pro Ser Asp ct p" T^r Prl 

1355 1350 

TCT GAT GAG CCA ACA Ca TCT GAT GAA CCG ACT CCG TCA CAC ArA rrr 
Ser Asp Glu Pro Thr Pro Ser Asp Glu Pro "lil p" llr gJS t',' 'prl 
1365 1370 j3^5 
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GAG GAG CCG ACA CCG ACT ACT ACA CCG ACA CCA ACA CCG TCG ACA ACG 
Glu Glu Pro Thr Pro Thr Thr Thr Pro Thr Pro Thr Pro Ser Thr Thr 
1380 1385 1390 

CCT ACA AGT G6C AGC GGA GGC AGT GGT GGA AGC GGT GGT GGC GGC GGA 
Pro Thr Ser Gly Ser Gly Gly Ser Gly Gly Ser Gly Gly Gly Gly Gly 
1395 1400 1405 

GGT GGT GGA GGA ACT GTA CCT ACA TCT CCA ACA CCG ACA CCG ACA TCT 
^ JlL^^y Thr Ser Pro Thr Pro Thr Pro Thr Ser- 

1410 1415 1420 

AAA CCG ACG TCT ACA CCT GCA CCG ACA GAA ATC GAA GAG CCT ACA CCA 
Lys Pro Thr Ser Thr Pro Ala Pro Thr Glu He Glu Glu Pro Thr Pro 
1*25 1430 1435 1440 

TCT GAT GTG CCT GGT GCA ATC GGT GGA GAA CAT AGA GCA TAC TTA AGA 
Ser Asp Vol Pro Gly Ala He Gly Gly Glu His Arg Ala Tyr Leu Arg 
1445 1450 1455 

GGA TAT CCG GAT GGA AGC TTC AGG CCT GAA AGA AAT ATA ACA AGA GCT 
Gly Tyr Pro Asp Gly Ser Phe Arg Pro Glu Arg Asn He Thr Arg Ala 
1460 1465 1470 

GAA GC6 6CG GTA ATC TTT GCT AAG TTG CTT GGA GCC GAT GAA AGC TAT 
Glu Ala Ala Vol He Phe Ala Lys Leu Leu Gly Ala Asp Glu Ser Tyr 
1475 1480 1485 

GGA GCT CAG TCT CCA AGT CCA TAT AGT GAT TTG GCT GAT ACT CAC TGG 
Gly Ala Gin Ser Ala Ser Pro Tyr Ser Asp Leu Ala Asp Thr His Trp 
1490 1495 1500 

GCT GCA TGG GCA ATC AAA TTT GCA ACA AGC CAG GGC TTG TTC AAA GGA 
Ala Ala Trp Ala He Lys Phe Ala Thr Ser Gin Gly Leu Phe Lys Gly 
1505 1510 1515 ' 1520 

TAT CCG GAC GGT ACG TTT AAA CCT GAT CAG AAC ATA ACG AGA GCG GAA 
Tyr Pro Asp Gly Thr Phe Lys Pro Asp Gin Asn He Thr Arg Ala Glu 
1525 1530 1535 

TTC GCA ACT GTG GTA CTC CAC TTC CTG ACA AAA GTT AAG GGT CAG GAA 
Phe Ala Thr Vol Vol Leu His Phe Leu Thr Lys Vol Lys Gly Gin Glu 
1540 1545 1550 

ATA ATG AGC AAG CTT GCA ACA ATA GAT ATA AGT AAT CCG AAG TTT GAC 
He Met Ser Lys Leu Ala Thr He Asp He Ser Asn Pro Lys Phe Asd 
1555 1560 1565 

GAT TGT GTC GGA CAT TGG GCA CAA GAG TTT ATT GAG AAA TTG ACA AGC 
Asp Cys Vol Gly His Trp Ala Gin Glu Phe He Glu Lys Leu Thr Ser 
1570 1575 1580 
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n l I rV J?^ ^'^^ ^^'^ *AG CCG CAA AAC 4800 

Leu Gly Tyr He Ser Gly Tyr Pro Asp Gly Thr Phe Lys Pro Gin Asm 

1590 1595 1600 

TAT ATT AAA CGT TCC GAA AGT GTG GCA CTG ATT AAC AGA GCT CTG GAG 4848 
Tyr He Lys Arg Ser Glu Ser Vol Ala Leu He Asn Arg Ala Leu Glu 
1605 1610 1615 

AGA GCT CCG CTT AAT GGA GCG CCG AAG QC TTC CCG GAT GTT AAC GAA 4896 
Arg Gly Pro Leu Asn Gly Ala Pro Lys Leu Phe Pro Asp Vol Asn Glu 
16?5 10C 



1623 1625 

TCA TAC TGG GCA TTT GGC GAC ATT ATG GAC CGT GCT CTC GAC CAC AGT 4944 
Ser Tyr Trp Ala Phe Gly Asp He Met Asp Gly Alo Leu Asp His Ser 
1635 1640 1645 

TAC ATT ATC GAA GAT GAG AAA GAA AAA TTC GTT AAA TTG CTC GAA GAT 4992 

lltJ^^ "-y^ "-ys Pf'e Vol Lys Leu Leu Glu Asp 

1650 1655 1660 

(4) INFORMATIONS POUR LA SEQ ID NO: 3: 

(i) CARACTERISnqUES DE LA SEQUENCE: 

CA) LONGUEUR: 2064 paires de bases 

CB) TYPE: nucleotide 

CO NOMBRE DE BRINS: simple 

(ii) TYPE DE MOLECULE: AON 

(ix) CARACTERISnqUE: 

(A) NOM/CLE: 0RF2p de Clostridium thermocellum 
CB) EMPLACEMENT: 1.. 2064 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 3: 

ATG AAA AAA AAC AAT GTA TTA ACA ATA GCA GCT ATG ATA GCG CTT CTT 48 
Met Lys Lys Asn Asn Val Leu Thr He Ala Ala Met He Ala Leu Leu 
1 5 10 15 

CTA ACC AGC TTA CTT ACA AGT ATA ACT HT GGG GAG ACT TCG AGT ATA 96 
Leu Thr Ser Leu Leu Thr Ser He Thr Phe Gly Glu Thr Ser Ser He 
20 25 30 

CCT TCA AGA ATA TCT ATG GAG CTT GAC AAG ACA AAA GCA AAC ATA GGC 144 
Pro Ser Arg He Ser Met Glu Leu Asp Lys Thr Lys Ala Asn He Gly 
35 40 45 
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GAC ATA ATT ATA GCC ACA ATA AGA ATT GAC AAT ATC AAT AAC TTT ACIC 192 
Asp He He He Ala Thr He Arg He Asp Asn He Asn Asn Phe Ser 
50 55 60 

GGA TAT CAA TTA AAT ATA AAG TAT GAT CCG TCA TAG CTC CAG GCA G7T 240 
Gly Tyr Gin Leu Asn He Lys Tyr Asp Pro Ser Tyr Leu Gin Ala Vol 
65 70 75 80 

AAT CCT TTG ACA GGA GAA CCG ATA AAA AAG AGA ACA ATG CCG GCA GTG 288 
Asn Pro Leu Thr Gly Glu Pro He Lys Lys Arg Thr Met Pro Ala Vol 
85 90 95 

AAC GGC ACG GTG TTG TTA AAG GGA GAT CAQ TAC AGT ATT ACT GAG GTf 336 
Asn Gly Thr Vol Leu Leu Lys Gly Asp Gin Tyr Ser He Thr Glu Vol 
100 105 110 

GTA GAA AAT AAC GTC GAT GAA GGG ATT TTA AAT TTT GGC AAG GGA TAT 384 
Vol Glu Asn Asn Vol Asp Glu Gly He Leu Asn Phe Gly Lys Glv Tvr 
115 120 125 

GCA AAT TTA ACT GAA TAC AGG AAA AGC GGA AAA CCT GAA ACA ACC GG/l 432 
Ala Asn Leu Thr Glu Tyr Arg Lys Ser Gly Lys Pro Glu Thr Thr Gly 
130 135 140 

ATT ATT GGC AAG ATA GGA TTT AAA GCC TTA AAG CTT GGC AAG ACG GACl 480 
He He Gly Lys He Gly Phe Lys Ala Leu Lys Leu Gly Lys Thr Glu 
1*5 150 155 i6Ci 

ATC AAA TTT GAG AAC ACA CCC GTC ATG CCT GGG GCA AAA GAA GGA ACA 528 
He Lys Phe Glu Asn Thr Pro Vol Met Pro Gly Ala Lys Glu Gly Thr 
165 170 175 

CTG CTG TTT GAC TGG GAT GCA GAA ACT ATA ACG GAA TAT AAT GTA ATT 576 
Leu Leu Phe Asp Trp Asp Ala Glu Thr He Thr Glu Tyr Asn Val He 
180 185 190 

CAG CCT AAA GAA CTT GCA ATA ACG TTA CCG GAC GAT GCA CAC ATT GCT 624 
Gin Pro Lys Glu Leu Ala He Thr Leu Pro Asp Asp Ala His He Ala 
195 200 205 

TTG GAA CTT GAC AAG ACA AAA GTG AAA GTG GGA GAT GTA ATT GTT GCG 672 
Leu Glu Leu Asp Lys Thr Lys Val Lys Vol Gly Asp Vol He Vol Ala 
210 215 220 

ACA GTA AAA GCA AAG AAT ATG ACT AGT ATG GCG GGA ATT CAG GTA AAT 720 
Thr Vol Lys Ala Lys Asn Met Thr Ser Met Ala Gly He Gin Vol Asn 
225 230 235 240 

ATT AAA TAT GAC CCT GAA GTA TTG CAG GCG ATT GAT CCT GCG ACG GGA 768 
He Lys Tyr Asp Pro Glu Vol Leu Gin Ala He Asp Pro Ala Thr Gly 
245 250 255 



2748479 



41 



AAA CCG TTT ACA AAA GAA ACA TTA CTT GTG GAC CCG GAA CTG TTA TCA 
Lys Pro Phe Thr Lys Glu Thr Leu Leu Vol Asp Pro Glu Leu Leu Ser 
26® 265 270 

AAC A6A GAA TAT AAT CCG TTG TTA ACA GCA GTT AAT GAC ATA AAT TCC 
Asn Arg Glu Tyr Asn Pro Leu Leu Thr Alo Vol Asn Asp lie Asn Ser 
275 280 285 

nl rV rJ^ t*^ ?^ "^^ TAT TGG GAT TCC TAC AGA 

Gly lie lie Asn Tyr Ala Ser Cys Tyr Vol Tyr Trp Asp Ser Ty^ 2rg 

Z95 300 

GAA TCA GGA GTA TCT GAA AGC ACC 6GA ATA ATT GGA AAG GTT GGC TTT 
Glu ser Gly Vol Ser Glu Ser Thr Gly lie He Gly Lys Vol Gly pZ 

315 3;?0 

AAA GTG CTG AAA GCT GCC AAC ACC ACA GTA AAA CTG GAA GAA Aa AGA 
Lys Vol Leu Lys Ala Ala Asn Thr Thr Vol Lys Leu Glu Glu ThJ 
325 330 

P^J Jtl I" J*^ «T TGG TAT GGC 

Phe Thr Pro Asn Ser He Asp Gly Thr Leu Vol lie Asp Trp Tyr Gly 

345 350 

G?J Cln 5!^ AAA ATT ACT GTG 

Gin Gin lie Vol Gly Tyr Lys Vol He Gin Pro Asp Lys He Thr Vol 
355 360 365 

ATT TCA GAG CCT GAG GTA CCA ACA CAA ACA CCT ACA CAG ACA CCG CCa 
He Ser Glu Pro Glu Vol Pro Thr Gin Thr Pro Thr Gin JhJ Pro Pn! 

375 380 

i^* o^* <^^T CAG ACA CCG CCA ACA AO; 

Thr Thr Thr Ala Pro Ser Gin Thr Pro Thr Gin Thr Pro Pro Thr Thr 

390 395 

Jf* J^'^ ^ CCG GCA GTA ACG CCG ACC 

Thr Ala Pro Ser Gin Thr Pro Thr Gin Thr Pro Ala Vol Thr Pro Thr 
405 410 

W ^ c" J" ^^'^ <^GA GGA GGC CTC CCG 

Gin Ser Ala Thr Pro Ser Asp Pro Gly Gly Gly Gly Gly Gly Leu Pro 
420 425 430 

GGT G6T GGA GGC GGC GCT GTT AAT CCT TCA GCT TCA CCG ACA CCA ACA 
Gly Gly Gly Gly Gly Ala Vol Asn Pro Ser Ala Ser Pro Thr Pro Thr 

440 445 

Irl ^ I" f** *^ ^^"^ ^^'^ A<^T AAA AAA CCG GAG CCA ACG 
Pro Thr Ser Lys Pro Thr Pro Thr Ala Thr Lys Lys Pro Glu Pro Thr 

455 460 
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GAA ATA GAA GAA CCC GAA CCT GAA ATA CC6 GGC ACT GTT GGA ATA CAT 1440 
Glu lie Glu Glu Pro Glu Pro Glu lie Pro Gly Thr Vol Gly He His 
465 470 475 480 

TAT TCA TAC CTG ACA GGT TAT CCG GAC AAA ATG TTC AGA CCT GAA AAG 1488 
Tyr Ser Tyr Leu Thr Gly Tyr Pro Asp Lys Met Phe Arg Pro Glu Lys 
485 490 495 

AGT ATT ACA AGA GCT GAA GCA GCC GTG ATT TTT GCA AAA CTT TTG QGi\ 1536 
Ser lie Thr Arg Ala Glu Ala Ala Val He Phe Ala Lys Leu Leu Gly 
500 505 

GCA AAC GAA AAT ACA AAG ATA AAC TAT AAT GTT TCA TAC ACC GAT GTlf 1584 
Ala Asn Glu Asn Thr Lys He Asn Tyr Asn Vol Ser Tyr Thr Asp Vol 
515 520 525 

GAC AGC TCC CAT TGG GCA AGT TGG GCA ATC AAA TTT GTA Ta TAC AACi 1632 
Asp Ser Ser His Trp Ala Ser Trp Ala He Lys Phe Val Ser Tyr Lvs 
530 535 540 

AAA CTG TTT ACC GGA TAT CCT GAT GGC TCG TTC AAG CCT AAT CAG AA7 1680 
Lys Leu Phe Thr Gly Tyr Pro Asp Gly Ser Phe Lys Pro Asn Gin Asn 
545 550 555 560 

ATA ACG AGA GCC GAA TTT TCA ACG GTT CTG TTT AAG CTT CTT GTA TCT 1728 
He Thr Arg Ala Glu Phe Ser Thr Vol Vol Phe Lys Leu Leu Vol Ser 
565 570 575 

GAG AAA GGT CTA AAA GAA GAA AAG ATT GAA AAG TCC AAG TTT GGT GAT 1776 
Glu Lys Gly Leu Lys Glu Glu Lys He Glu Lys Ser Lys Phe Gly Asp 
580 585 590 

ACA AAG GGC CAC TGG GCA CAA CAG TTT ATT GAA CAG CTG TCA GAC CTT 1824 
Thr Lys Gly His Trp Ala Gin Gin Phe He Glu Gin Leu Ser Asp Leu 
595 600 605 

GGA TAC ATC AAC GGA TAT CCT GAT GGT ACA TTC AAG CCC AAC AAC AAT 1872 
Gly Tyr He Asn Gly Tyr Pro Asp Gly Thr Phe Lys Pro Asn A!;n Asn 
610 615 620 

ATC AAA CGA TCA GAA AGT GTT GCC CTG ATA AAC AGA GCT ATG GGA AGA 1920 
He Lys Arg Ser Glu Ser Val Ala Leu He Asn Arg Ala Met Gly Arg 
625 630 635 640 

GGG CCT TTG CAT GGC GQ CCG CAG GTA TTC GAG GAT GTT CCT CAG ACA 1968 
Gly Pro Leu His Gly Ala Pro Gin Val Phe Glu Asp Val Pro Gin Thr 
645 650 655 

CAC TGG GCT TTC AAA GAT ATT GCA GAG GGC GTG CTC AAT CAC AGA TAC 2016 
His Trp Ala Phe Lys Asp He Ala Glu Gly Vol Leu Asn His Arg Tyr 
660 665 673 
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AAA CTG GAC AAT GAG GGC AAA GAA CAA TTG CTG GAG ATA ATT GAT AAC 

Lys Leu Asp Asn Glu Gly Lys Glu Gin Leu Leu Glu He He Asp Asn 
675 680 6815 
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DESCRIPTION DE LA SEQUENCE : SEQ ID N'*: 4: 



SEQUENCE NUCLEOTIDIQUE DE LA PROTEINE CipA 



ATGAGAAAAGTCATCAGTATGCTCTTAGTTGTGGCTATGCTGACGACGA I I I TJ GCGGCGATGATAC 
CGC 

AGACAGTATCGGCGGCCACAATGACAGTCGAGATCGGCAAAGTTACAGCAGCCGITGGATCAAAA 
GTAGA 

AATACCTATAACCCTGAAAGGAGTGCCATCCAAAGGAATGGCCAATTGCGACTTCGTATTGGGTTA 
TGAT 

CCAAATGTGCTGGAAGTAACAGAAGTAAAACCAGGAAGCATAATAAAAGATCCG(jATCCTAGCAA 
GAGCT 

TTGATAGCGCAATATATCCGGATCGAAAGATGATTGTATTTCTGTTTGCAGAAGACAGTGGAAGAG 
GAAC 

GTATGCAATAACTCAGGATGGAGTATTTGCAACAATTGTAGCCACTGTCAAATCACjCTGCAGCGGC 
ACCG 

ATTACTTTGCTTGAAGTAGGTGCATTTGCGGACAACGATTTACTAGAAATAAGCAC:AACTTTT^ 
CGG 

GCGGAGTAAATCTTGGTAGTTCCGTACCGACAACACAGCCAAATGTTCCGTCAGACGGTGTGGTAG 
TAGA 

AATTGGCAAAGTTACGGGATCTGTTGGAACTACAGTrGAAATACCTGTATATTTCAGAGGAGTTCC 
ATCC 

AAAGGAATAGCAAACTGCGACnTGTGTTCAGATATGATCCGAATGTATTGGAAAirTATAGGGATA 
GATC 

CCGGAGACATAATAGTTGACCCGAATCCTACCAAGAGCTTTGATACTGCAATATATCCTGACAGAA 
AGAT 

AATAGTATTCCTGTTTGCGGAAGACAGCGGAACAGGAGCGTATGCAATAACTAAAGACGGAGTATT 
TGCA 

AAAATAAGAGCAACTGTAAAATCAAGTGCTCCGGGCTATATTACTTTCGACGAAGTAGGTGGATTT 
GCAG 

ataatgacctggtagaacagaaggtatcatttatagacggtggtgttaacgttgg<:aatgcaacac 

CGAC 

caagggagcaacaccaacaaatacagctacgccgacaaaatcagctacggctacgcccaccaggc 
catcg 

gtaccgacaaacacaccgacaaacacaccggcaaatacaccggtatcaggcaatttgaaggttga 

ATTCT 

acaacagcaatccttcagatactactaactcaatcaatcctcagttcaaggttactaataccggaa 
gcag 

tgcaattgatttgtccaaactcacattgagatattattatacagtagacggacagaaagatcagac 

CTTC 

tggtgtgaccatgctgcaataatcggcagtaacggcagctacaacggaattacttc:aaatgtaaaa 
ggaa 

catttgtaaaaatgagttcctcaacaaataacgcagacacctaccttgaaataagc:tttacaggcg 
gaac 

tcttgaaccgggtgcacatgttcagatacaaggtagatttgcaaagaatgactgg/^gtaactatac 
acag 

tcaaatgactactcattcaagtctgcttcacagtttgttgaatgggatcaggtaacagcatacttga 
acg 

gtgttcttgtatggggtaaagaacccggtggcagtgtagtaccatcaacacagcctgtaacaacac 

CACC 

tgcaacaacaaaaccacctgcaacaacaaaaccacctccaacaacaataccgccgtcagatgatcc 

GAAT 

GCAATAAAGATTAAGGTGGACACAGTAAATGCAAAACCGGGAGACACAGTAAAT>aACCTGTAAG 
ATTCA 

GTGGTATACCATCCAAGGGAATAGCAAACTGTGACTTTGTATACAGCTATGACCCCIAATGTACTTG 
AGAT 
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AATAGAGATAAAACCGGGAGAATTGATAGTTGACCCGAATCCTGACAAGAGCTTTGATACTGCAGT 
ATAT 

CCTGACAGAAAGATAATAGTATTCCTGTTTGCAGAAGACAGCGGAACAGGAG03TATGCAATAACT 
AAAG 

ACGGAGTATTTGCTACGATAGTAGCGAAAGTAAAATCCGGAGCACCTAACGGACTCAGTGTAATCA 
AATT 

TGTAGAAGTAGGCGGATTTGCGAACAATGACCTTGTAGAACAGAGGACACAGrrCTTTGACGGTGG 
ACTA 

AATGTTGGAGATACAACAGTACCTACAACACCTACAACACCTGTAACAACACCGACAGATGATTCG 
AATG 

CAGTAAGGATTAAGGTGGACACAGTAAATGCAAAACCGGGAGACACAGTAAGAATACCTGTAAGA 
TTCAG 

CGGTATACCATCCAAGGCAATAGCAAACTGTGACTTTGTATACAGCTATGACCCGAATGTACTTGA 
GATA 

ATAGAGATAGAACCGGGAGACATAATAGTTGACCCGAATCCTGACAAGAGCrnGATACTGCAGTA 
TATC 

CTGACAGAAAGATAATAGTATTCCTGTTTGCGGAAGACAGCGGAACAGGAGCGTATGCAATAACTA 
AAGA 

CGGAGTATTTGCTACGATAGTAGCGAAAGTAAAATCCGGAGCACCTAACGGACTCAGTGTAATCAA 
ATTT 

GTAGAAGTAGGCGGATTTGCGAACAATGACCTTGTAGAACAGAAGACACAGmTTTGACGGTGGA 
GTAA 

ATGTTGGAGATACAACAGAACCTGCAACACCTACAACACCTGTAACAACACCGACAACAACAGAT 
GATCT 

GGATGCAGTAAGGATTAAAGTGGACACAGTAAATGCAAAACCGGGAGACACAGTAAGAATACCTG 
TAAGA 

7TCAGCGGTATACCATCCAAGGGAATAGCAAACTGTGACTTTGTATACAGCTATC1ACCCGAATGTA 
CTTG 

AGATAATAGAGATAGAACCGGGAGACATAATAGTTGACCCGAATCCTGACAAG>^GCTTTGATACTG 
CAGT 

ATATCCTGACAGAAAGATAATAGTATTCCTGTTTGCGGAAGACAGCGGAACAGGAGCGTATGCAAT 
AACT 

AAAGACGGAGTATTTGCTACGATAGTAGCGAAAGTAAAATCCGGAGCACCTAACGGACTCAGTGT 
AATCA 

AATTTGTAGAAGTAGGCGGATTTGCGAACAATGACCTTGTAGAACAGAAGACACAGTTCTTTGACG 
GTGG 

AGTAAATGTTGGAGATACAACAGAACCTGCAACACCTACAACACCTGTAACAAOKCCGACAACAA 
CAGAT 

GATCTGGATGCAGTAAGGATTAAAGTGGACACAGTAAATGCAAAACCGGGAGACACAGTAAGAAT 
ACCTG 

TAAGATTCAGCGGTATACCATCCAAGGGAATAGCAAACTGTGACTTTGTATACAGCTATGACCCGA 
ATGT 

acttgagataatagagatagaaccgggagacataatagttgacccgaatcctga<:aagagctttga 

TACT 

gcagtatatcctgacagaaagataatagtattcctgtttgcagaagacagcgga/.caggagcgtat 
gcaa 

taactaaagacggagtatttgctacgatagtagcgaaagtaaaagaaggagcacctaacggactc 
agtgt 

aatcaaatttgtagaagtaggcggatttgcgaacaatgaccttgtagaacagaacjacacagttctt 
tgac 

ggtggagtaaatgttggagatacaacagaacctgcaacacctacaacacctgtaacaacaccgac 

AACAA 

cagatgatctggatgcagtaaggattaaagtggacacagtaaatgcaaaaccgggagacacagta 
agaat 

acctgtaagattcagcggtataccatccaagggaatagcaaactgtgactttgtatacagctatga 

CCCG 

aatgtacttgagataatagagatagaaccgggagaattgatagttgacccgaatc:ctaccaagagc 
tttg 
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ATACTGCAGTATATCCTGACAGAAAGATGATAGTATTCCTGTTTGCGGAAGACAGCGGAACAGGAG 

CGTA 

TGCAATAACTGAAGATGGAGTATTTGCTACGATAGTAGCGAAAGTAAAATCCG(}AGCACCTAACGG 
ACTC 

/^TCTAATCAAATTTGTAGAAGTAGGCGGATTTGCGAACAATGACCTTGTAGAACAGAAGACACAG 

TTGACGGTGGAGTAAATGTTGGAGATACAACAGAACCTGCAACACCTACAACACCTGTAACAACAC 
CGAC 

AACAACAGATGATCTGGATGCAGTAAGGATTAAAGTGGACACAGTAAATGCAAAACCGGGAGACA 
CAGTA 

AGAATACCTGTAAGATTCAGCGGTATACCATCCAAGGGAATAGCAAACTGTGACITTTGTATACAGC 
TATG 

ACCCGAATGTACTTOAGATAATAGAGATAGAACCGGGAGACATAATAGTTGACC:CGAATCCTGACA 
AGAG 

CTTTGATACTGCAGTATATCCTGACAGAAAGATAATAGTATTCCTGTTTGCAGA/^GACAGCGGAAC 
GGGA 

GCGTATGCAATAACTAAAGACGGAGTATTTGCTACGATAGTAGCGAAAGTAAAAGAAGGAGCACC 
TAACG 

GACTCAGTGTAATCAAATTTGTAGAAGTAGGCGGATTTGCGAACAATGACCTTGTAGAACAGAAGA 
CACA 

GTTCTTTGACGGTGGAGTAAATGTTGGAGATACAACAGTACCTACAACATCGCCC5ACAACAACACC 
GCCA 

GAGCCGACGATAACTCCGAACAAGTTGACACTTAAGATAGGCAGAGCAGAAGGAAGACCTGGAGA 
CACGG 

TGGAAATACCGGTTAACTTGTATGGAGTACCTCAAAAAGGAATAGCAAGCGGTGACTTCGTAGTAA 
GCTA 

TGACCCGAATGTACTTGAGATAATAGAGATAGAACCGGGAGAATTGATAGTTGACCCGAATCCTAC 
CAAG 

AGCTTTGATACTOCAGTATATCCTGACAGAAAGATGATAGTATTCCTGTTTGCGGAAGACAGCGGA 
ACAG 

GAGCGTATGCAATAACTGAAGATGGAGTAnTGCTACGATAGTAGCGAAAGTAAAAGAAGGAGCA 
CCTGA 

AGGATTCAGTGCAATAGAAATTTCTGAGTTTGGTGCATTTGCAGATAATGATCTGGTAGAAGTGGA 
A ACT 

GACCTTATCAATGGTGGAGTACTTGTAACTAATAAACCTGTAATAGAAGGATATAAAGTATCCGGA 
TACA 



rGCCAGACTTCTCCTTCGACGCTACTGTTGCACCACTTGTAAAGGCCGGATTCAAAGTTGAAAT 
AGT 

AGGAACAGAATTGTATGCAGTAACAGATGCAAACGGATACTTTGAAATAACCGG>^GTACCTGCAA 
ATGCA 

AGCGGATATACATTGAAGAnTCAAGAGCAACTTACTTGGACAGAGTAATTGCAAATGTTGTAGTA 
ACGG 

GAGATACTTCAGTrrCAACTTCACAGGCTCCAATAATGATGTGGGTAGGAGACATAGTGAAAGACA 
ATTC 

TATCAACCTGTTGGACGrrGCAGAAGTTATCCGTTGCTTCAACGCTACTAAAGGA/.GCGCAAACTA 
CGTA 

GAAGAACTTGACATTAATAGAAACGGCGCAATTAACATGCAAGACATAATGATTGTTCATAAGCAC 
TTTG 

GAGCTACATCAAGTGATTACGACGCACAGTAA 
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SEQUENCE DE LA PROTFIMF PipA 

MRKVISMLLVVAMLTTIFAAMIPQTVSAATMTVEIGKVTAAVGSKVEIPITLKGVPSKGMANCDFVLGY 

DPNVLEVTEVKPGSIIKDPDPSKSFDSAIYPDRKMIVFLFAEDSGRGTYAITQDGVFATIVATVKSAAAAP 

ITLLEVGAFADNDLVEISTTFVAGGVNLGSSVPTTQPNVPSDGVVVEIGKVTGSVGTTVEIPYYFRGVPS 

KGIANCDFVFRYDPNVLEIIGIDPGDIIVDPNPTKSFDTAIYPDRKIIVFLFAEDSGTGAYAITKDGVFAKIR 

ATVKSSAPGYITFDEVGGFADNDLVEQKVSFIDGGVNVGNATPTKGATPTKTATPTKSATATPTRPSVPT 

NTPTNTPANTPVSGNLKVEFYNSNPSDTTNSINPQFKVTNTGSSAIDLSKLTLRYYYTVDGOKDOTFWC 

DHAAIIGSNGSYNGITSNVKGTFVKMSSSTNNADTYLEISFTGGTLEPGAHVQIQGRI-AKNDWSNYTOS 

NDYSFKSASQFVEWDQVTAYLNGVLVWGKEPGGSVVPSTQPVTTPPATTKPPATTFlPPATriPPSDDPN 

AIKIKVDTVNAKPGDTVNIPVRFSGIPSKGIANCDFVYSYDPNVLEIIEIKPGELIVDPMPDKSFDTAVYPD 

RKIIVFLFAEDSGTGAYAITKDGVFATIVAKVKSGAPNGLSVIKFVEVGGFANNDLVEORTOFFDGGVN 

VGDTTVPTTPTTPVTTPTDDSNAVRIKVDTVNAKPGDTVRIPVRFSGIPSKGIANCDFVYSYDPNVLEIIEI 

EPGDIIVDPNPDKSFDTAVYPDRKHVFLFAEDSGTGAYAITKDGVFATIVAKVKSGAPNGLSVIKFVEVG 

GFANNDLVEQKTQFFDGGVNVGDTTEPATPTTPVTTPTTTDDLDAVRIKVDTVNAKPGDTVRIPVRFSG 

IPSKGIANCDFVYSYDPNVLEIIEIEPGDIIVDPNPDKSFDTAVYPDRKIIVFLFAEDSGTGAYAITKDGVFA 

TIVAKVKSGAPNGLSVIKFVEVGGFANNDLVEQKTQFFDGGVNVGDTTEPATPTTP\^TTPnTDDLDAV 

RIKVDTVNAKPGDTVRIPVRFSGIPSKGIANCDFVYSYDPNVLEIIEIEPGDIIVDPNPDKSFDTAVYPDRKI 

IVFLFAEDSGTGAYAITKDGVFATIVAKVKEGAPNGLSVIKFVEVGGFANNDLVEQKTQFFDGGVNVGD 

TTEPATPTTPVTTPTTTDDLDAVRIKVDTVNAKPGDTVRIPVRFSGIPSKGIANCDFVySYDPNVLEIlEIEP 

GELIVDPNPTKSFDTAVYPDRKMIVFLFAEDSGTGAYAITEDGVFAT1VAKVKSGAP>JGLSVIKFVEVGG 

FANNDLVEQKTQH'DGGVNVGDTTEPATPTTPVTTPTTTDDLDAVRIKVDTVNAKWjDTVRIPVRFSGIP 

SKGIANCDFVYSYDPNVLEIIEIEPGD^VDPNPDKSFDTAVYPDRKIIVFLFAEDSGTG^YAITKDGVFATI 

VAKVKEGAPNGLSVIKFVEVGGFANNDLVEQKTQFFDGGVNVGDTTVPTTSPTTTPPEPTITPNKLTLKI 

GRAEGRPGDTVEIPVNLYGVPQKGIASGDFVVSYDPNVLEIIEIEPGELIVDPNPTKSFDTAVYPDRKMIV 

flfaedsgtgayaitedgvfativakvkegapegfsaieisefgafadndlvevetdlinggvlvtnkpvi 

EGYKVSGYILPDFSFDATVAPLVKAGFKVEIVGTELYAVTDANGYFEITGVPANASGYTLKISRATYLDR 

VIANVVVTGDTSVSTSQAPIMMWVGDIVKDNSINLLDVAEVIRCFNATKGSANYVEE'LDINRNGAINMO 
DIMIVHKHFGATSSDYDAQ i-i/i.>.im>iuaiiniviv 
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REVENDICATIONS 

1. Compos6 sur lequel est capable de se fixer dc^ facon covalente 
ou non au moins un domaine cohesine de type II. 

2. Compost selon la revendication 1, caracterise en ce que le 
domaine coh6s5ne de type II provieni d'une bacterie cellulolytique. 

3. Compose selon la revendication 2, caracterise en ce que le 
domaine coh6sine de type II provient d'une souche de Clostridium, et 
notamment de Clostridium thermocellum. 

4. Compose selon la revendication 3, caracterise en ce que le 
domaine cohesine de type II provient d'une prot^ine de Clostridium 
thermocellum ou d'un fragment de celle-ci compris entre 50 et 600 acides 
amines. 

5. Compost selon la revendication 3, caract6ri;;e en ce que le 
domaine cohesine de type II provient d'une proteine de Clostridium 
thermocellum choisie parmi SdbA. OlpB et 0RF2p ou d'une proteine 
homologue. 

6. Compost selon la revendication 5, caracterise en ce qu'il 
comprend la sequence de 165 acides amines subsiantiellement telle que 
representee dans I'IDS n" 1 de Tacide amine n' 27 a I'acide amine n**210 de 
la sequence de la proteine SdbA ou une sequence homologue ou un 
fragment de cette sequence ou d'une sequence homolojjue ayant une 
activite cohesine de type II. 

7. Compose selon la revendication 5, caracterise en ce qu'il 
comprend comme domaine cohesine de type II Tune des sequences de la 
proteine OlpB choisies parmi la sequence des acides amines m" 28 au n" 190, 
la sequence des acides amines n" 207 au n* 362, la sequence des acides 
amines n* 409 au n° 564 et la sequence des acides amines n' 607 au n* 762 de 
riDS n' 2 ou une sequence homologue k Tune de ces sequences ou un 
fragment de ces sequences d'au moins 50 acides amines ayant une activite 
cohesine de type IL 

8. Compose selon la revendication 5, caracterise en ce qu'il a 
un domaine cohesine de type II, une sequence de la proteine 0RF2p choisie 
parmi la sequence des acides amines n" 38 a 194 et la sequence des acides 
amines n" 209 i 364 de I'IDS n" 3, ou une sequence homologue k ces 
sequences ou un fragment de ces sequences d'au moins 50 acides amines 
ayant une activite cohesine de type II 
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9. Compose selon Tune des revendicaiions 1 a 8, caracterise en 
ce qu'il s'agit essentiellement d'un polypeptide ou d'une proi6ine. 

10. Compost selon la revendication 9, caracterise en ce qu'il 
s'agit d'une proteine a activite enzymatique. 

11. Compost selon Tune des revendications 1 a 10, caractdris^ 
en ce qu'il comporte au moins un autre domaine cohesine qui n'est pas de 
type II et/ou un domaine dockerine. 

12. Proteine SdbA de Clostridium thermocellum . dont la 
sequence en acides amines est la sequence complete de 63)1 acides amines 
substantiellement telle que representee sur TIDS n* 1. 

13. Fragment d'une proteine selon Tune des revendications 1 i 
12 ou d'une proteine homologue, caracterise en ce qu'il s'agit d'un 
domaine cohesine de type II. 

14. Compose selon Tune des revendications 1^11, caracterise 
en ce qu'il comporte au moins un fragment non proteique. 

15. Fragment d'ADN, caracterise en ce qu'il comporte au moins 
une sequence codant pour un domaine cohesine de type IL 

16. Fragment d'ADN selon la revendication 15, codant pour la 
proteine SdbA ou fragment de celle-ci. 

17. Fragment d'ADN, selon la revendication 15, caracterise en 
ce qu'il compone pour sequence substantiellement les nucleotides 82 a 573 
dans riDS n** 1 codant pour le domaine cohesine de type 11 d<! SdbA. 

18. Fragment d'ADN selon la revendication 15, comporiant 
substantiellement la sequence de nucleotides 1 k 1893 de I'lDS n' 1 codant 
pour la proteine SdbA. 

19. Fragment d'ADN selon la revendication 15, caracterise en 
ce qu'il a substantiellement pour sequence I'une des sequences codant pour 
un domaine cohesine de OlpB choisies parmi la sequence des nucleotides 85 a 
570, la sequence des nucleotides 619 a 1095 et la sequence des nucleotides 
1225 k 1689 et la sequence des nucleotides 1819 a 2189 dans I'lDS n' 2. 

20. Fragment d'ADN selon la revendication 15, caracterise en 
ce qu'il a substantiellement pour sequence Tune des sequences codant pour 
un domaine cohesine de 0RF2 choisies parmi la sequence des nucleotides 109 
i 582 et la sequence des nucleotides n" 625 a 1092 dans I'lDS n' 3. 

21. Fragment d'ADN caracterise en ce qu'il a pour sequence 
une sequence compiementaire ou homologue ou compiementaire de 
rhomologue d'un fragment selon Tune des revendications 15 a 20. 
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22. Fragment d'ADN caracterise en ce qu'il est capable de 
s'hybrider dans des conditions faiblement stringentes avec un fragment 
selon Tune des revendications 15 & 21, 

23. Souche de Ecoli deposee a la CNCM de Tlnstiiut Pasteur sous 
le n** 1-1683 iransform^e par le plasmide pCT 1801. 

24. Souche de Ecoli deposee ii la CNCM de Tlnst iiut Pasteur sous 
le n°I-1684 transform^e par le plasmide pCT 1830. 

25. Compost caracterise en ce qu'il comporie au moins un 
domaine dockerine de type II. 

26. Complexe comportant au moins un compost: selon I'une des 
revendications 1 k 14 Ii6 par une interaction C/D de type II avec un 
compost comportant au moins un domaine dockerine de type II, chaque 
compos6 constituant un Element du complexe. 

27. Complexe selon la revendication 26, caracterise en ce que 
raffmit6 du complexe est au moins egal a 105 M. 

28. Complexe selon Tune des revendications 26 et 27, 
caract6ris6 en ce qu'il comporte au moins trois elements dont deux sont lies 
par une Interaction C/D autre que de type II. 

29. Complexe selon la revendication 28, caract6ris6 en ce que 
deux ^l^ments sont li^s par une interaction C/D de type I. 

30. Complexe multimerique selon les revendications 28 et 29 
caract6ris6 en ce qu'il comprend entre 1 et 50 elements associSs entre eux et 
de pr6f6rence 1 et 20. 

31. Complexe selon la revendication 30 caracterise en ce qu'il 
comprend au moins deux domaines d'interaction C/D de type II. 

32. Complexe selon la revendication 30 caracterisd en ce qu'il 
comprend au moins une interaction C/D de type I associ^ k une interaction 
C/D de type II. 

33. Complexe multimerique selon I'une des revendications 28 k 
32, caractdris^ en ce que les elements du complexe sont esseatiellement des 
prot^ines. 

34. Complexe selon I'une des revendications 26 k 33, caracterise 
en ce qu'au moins I'un des elements comprend un fragment jprot^ique riche 
en proline et/ou en hydroxy amino acide. 

35. Complexe multimerique selon Tune des revendications 33 
ei 34, caracterise en ce que certains des elements du complexe sont des 
enzymes. 
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36. Vecteur d'expression comprenant un fragment d'ADN 
selon Tune des revendications 15 a 22, place sous le controle d'elements 
assurani son expression dans une cellule bote, 

37. Souche de E.coli transformee par un vecteur selon la 
revendication 36. 

38. Proc^dS de preparation d'un polypeptide selon I'une des 
revendications 1 k 14, caracteris^ en ce qu'on realise la culture de cellules 
hdtes transform6es k Taide d'un vecteur selon la revendication 36 ou par 
culture d'une souche selon la revendication 37. 

39. Composition enzymatique comprenant un complexe selon 
Tune des revendications 26 35. 

40. Composition enzymatique selon la revendication 39. 
comprenant deux enzymes liees par une interaction C/D de type II. 

41. Composition selon les revendications 39, caracteris^e en ce 
que le complexe multimerique comporte un compose selon Tune des 
revendications 1 i 1 1 liee k un domaine dockerine de la proteine CipA, li6 k 
une premiere enzyme, et le second compose comprenant un domaine 
dockerine d'une sous unit^ catalytique du complexe cellulytique de 
Clostridium thermorellum li^ k une seconde enzyme. 

42. Utilisation du complexe multimerique selon Tune des 
revendications 26 k 35, caractdrisee en ce que ledit complexe multimerique 
potentialise la synergie des elements du complexe. 

43. Utilisation du complexe multimerique ;>elon Tune des 
revendications 39 k 42, caracteris^e en ce que ledit complexe assure la 
potentialisation de la composition enzymatique. 

44. Proc6de de detection d'un antig^ne ou d*un anticorps, 
caract6ris6 par la mise en contact d'un complexe multimerique selon Tune 
des revendications 26 a 35 avec une solution con tenant un anticorps ou un 
antigSne d'int6rei et la revelation de la reaction entre le complexe 
multimerique et I'antigene ou I'anticorps. 
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Domaine dockerine de type I 
Domaine dockerine de type II 
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1 CCCASACA C.^i . . . *,CCCAT1 . .'-*CAAAAACATATCAACT\A5GCTCACXWGCTTT«ykTCAAAACAAAACA^^ 



SLR «»»tKKRLISLLLAVriAVACLPACXAIIA 
ill A— AfcCACAAATTTAAATOACSACCCAATTATCAAATCACCAACAAAAAAACATTAArATCA— ACTCrrr^^ 



OKAfSICLK F D RMKCEVCDtt.ICTVflINNXKNFAC rcvwx 
ail CATAAACCCTCCAOCATTCACCrrAACTTTCACCCCAATAACGCACAACTTOCACATATACTTArrCC^ 

V yO>KV L MA VD >ETCKCrTS S T r P P C R ' T V L K ' N "« ' A y' C P X Q ' 
J« 1 CTATATCATCCAAAACTCTTAATCXKrnrrrCACCCTCAAACCCCCUAACAATrTAC^^ 



^^^^^^ 



ADWDPEKCIL«rALAYSYlAGYICETCVACESC:XAKICr»t 
4 Bl CCCCACAATCATCCGGAAAAACOCATACTCAACTTCCCCCTTTCATATrCATATATTCCSCSATACAAACA^ 



S T A V K 



60 1 ATACTCCACAAAAAGAO C ACTCCCCTAAAAriCCACCATACATTAAGCATCCCCWACCTATTrCGGCAACACAGCTCTr^ 



0 » » y > BtPYBTPCTOlP ISDNPAATPSSTPSVTPSPE 

7a 1 CACCCOCAT0TCCT(U0TtTCCCTCAeOACCCTrAT0A<»CACCOGCAACCGATATTCCCATATCC(y^CAATC 



V K P T 0 T > S » A E N S K KVELCPVLONATCEAXAAXDCCKLNK 
8 « 1 CTTAAACCCACTCACACCCC 11 CtA. Llt«CfcCAAAATTCTOCAAAACmK»CCTTCAACCTgnrrrCMTAATCCAAC ATC GAAAMITAAACAAC 



A LD tAKKSKDDX L V E LMIKKVEW ADAYI QOL PA KrLX KSD 
961 CC it, J'lt^TCAACCCAAAAAATCCCAACATCACAAACTTCTCGAACTTAACATAAACAACCTTCAAAATCCCCAT^^ CTtSATAAAAACTCAC 



AEYKLAIATIOCIIBVPANMLWTADISKLVICNOSV V E P V I 
1 Oil CCCCAATATAACCTCACAATACCTACACACCAOCCAATTATAGAACTACCOOXAACATCCTGAATACrW 



« K V K V P 1 L C AtLKIKlC«RPVIDISVVVDCKKVE«;SNYEA 
1301 A(»AAACTAAAAOTC(»TtJAACTrOOTCCAOAOCTCAAACAGAACATAOGCAACAGGCCCCTGATT^ 



E V E I«irYE»DAKELEIt«EHIVVLHIDDAGKAVSVl»SCKY 
1331 AAanTAAAATATCAATrCCTTACAAOCCTOATCCfcAAACAGCTOaAGAACCACGACCATATTOTCT 



mmm 



« > a L C V V T f « TNnLSEYAVSYVYKTrAOICSYAWAKKOIE 
1441 OAACCTTCTTTOCeCCTCCTTACCTCTOAGACGAATCATTTAAGCAACTATtXCWTTO 



KCVlHCTSOTTrTPOAOITRADfMILLVKALC LTAE 
TAATrAACCCTACATCCCATACCACTTTTACSCCCCACGCACACATAACAACSGCSSATTTCATCATA L. iLi lUl 'J^ 



Figure 3 
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V T S W 7 0 D V * eKDYyyCYVCIAIt*LCITTCVCNNKfNPKAIt 
1 6S 1 CTTACTTCCAATTTrCATCATCTCrreCCAAAAACXCTACTATTATCAATACCTCCCXA 

W/Mm//MM/////^^^^^^^^ ^^^^^^ 

ITRODHMVLTTKALRlAGKISSTCTRADVCRrSDKOOlAS 
1801 ATTACAACACACCATATGATCCTACTTACAACAAATCCTCTCACCATTCCASCAAAAATATCCACCACAGCAACCCSCSCT^ 

YAVICVAT L V KecZVyCSCDZZHPRCNASRACLAAXXYKI 
1931 TATCCOGTTOAACCCCnTGCAACCrrTOCrrAAAACAACCTATTCTACTCCCAACCCGCSATATrATA^ 




y Y K • 



3041 TACTACAACTAAAATT Ol i i 11 iUC ATAAgrCAACTCAACCATAAACACGCCATACGGCCCACCCTSAAAACCCrrrrSATrCG C I :C 



Figure 3 (suite) 
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27 KADKASSIELKFDRNKGEVGDILIGTVRiNNIK^FAGFQVt^IV 

28 -AEATPSIEMVLDKTEVHVGDVITATIKVNNIRKIAGYQLNIKFDPEVLQPVDPAT 
207 LELDKTKVkVGDIITATIKIENMKNFAGYQLNIKYDPTMLEA 

409 MEmktkViW 

607 MEII)kTKVKEGDVriAT IKV^ . 

38 MELbKTkANIGDIiii^ ! 

209 AiEljDl?^^ 

83 iSc: 

84 f^E: 
254 ™, 
456 lis, 
654 




257 



TSSTl P;P . .GRTVEldiiNA^^^GglQl^^ 
TD^^^. . NF5a-LTOSKiGETP\^NDIK 
lQSDNii«3KTTA^^ 
'(SSm . EQSDl^KXTAVAOT)TOAGilSEl!ffi 
iWEAVGtSrt , £KNRI>YLPTGVAINKV:SKSILNFAAY2CVYEDDYKEEGKS 
EKig^MPAVNCl^lKGDgXS I TEWENNVDEGI^FGKGYANl.TEVRKSGKP 

'tkeSlI. .c^elIsnreInplltav^ 




SbpA 

01o3 

Oip3 

01d3 

OlpB 

0RF2p 

0RF2p 

SbpA 

OlpB 

OlpB 

OlpB 

OlpB 

0RF2p 

0RF2p 



IliQKKSlAVlOECffiTLSMfe^ SbpA 

"iSli^DTLSMiGAISCT OlpB 

*:GfSWQi^ OlpB 

<GYS^^^ OlpB 

JlBgTYSfDWYrN OlpB 

_ --lEYN^y^Qiii 0RF2p 

it RF tPNS IDGTLVIDWYGQ^^^ 0RF2p 



Figure 4 



098 EKAKQALEDQFLK Ml 
264 EIOLNKALDEAkK SbpA 
278 EKBNKEBEEGKK M9 
289 EKENKEL-EESKK PAM 
450 EKLNKDLEESKK Ml 2 



Figure 5 
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